【Azure Data Platform】ETL工具(19)——Azure Databricks
本文屬于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(18)——ADF 迭代和條件活動(2)
這次來聊聊Azure Databricks
前言
之所以突然停下ADF的介紹轉而向Azure Databricks, 是因為最近公司的項目已經呈現出ADF與Databricks的組合趨勢。為了更好地運維公司的項目,有必要了解一下Databricks。并且大概介紹一下Azure Data Factory和Azure Databricks的關系。
什么是Databricks
今時今日,大數據已經不是新鮮事,也已經被大范圍地使用。大數據中有一個開源引擎Spark用來支持大規模數據分析。主要通過集群,并行地進行數據處理,從而提高數據處理性能。
Databricks簡單來說,就是Azure上的Spark。 它可以很容易地與Blob storage, ADLS, SQL DB, PowerBI 等工具集成
- Databricks Workspace:一個交互式的工作區,用戶(主要是數據的消費者)可以通過這個工作區進行合作。
- Databricks Runtime : 用于支持運行,提高性能。
- Databricks File System (DBFS):類似于DataBricks的存儲,但是對用戶來說是一個抽象層。
它與ADF的區別
ADF主要用于從多個大規模的數據源中進行數據集成,Databricks則通過在單一平臺中統一數據、分析和 AI 工作負載從而簡化數據架構。
- ADF是一個PaaS,而Databricks偏向于SaaS。
- ADF 偏向于數據集成,Databricks則偏向于數據處理,機器學習等。
- ADF是一個低代碼平臺,可以通過拖拽的方式來實現絕大部分功能,而Databricks則提供豐富的編程支持
什么時候使用ADF和Databricks
目的上:
ADF:數據集成和數據移動。
Databricks:主要針對機器學習建模。
功能需求上:
ADF:低代碼帶來的功能并不如Databricks強大。
Databricks:通過編程方式擴展所需功能。
數據處理時效性:
ADF:不適合實時數據流。適合定期抽取數據。
Databricks:通過Spark API,可以實現實時流處理。
綜上所述:如果并不需要實時的,過多定制需求的數集成,且希望學習成本不要太高,那么ADF是值得考慮的。否則,那么在ADF和Databricks之間選擇的話,Databricks更好。
接下來用一點點篇幅介紹如何創建和使用Azure Databricks。
總結
以上是生活随笔為你收集整理的【Azure Data Platform】ETL工具(19)——Azure Databricks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NodeJs模块化(KPD)
- 下一篇: 使用Databricks作为分析平台