當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Azure Data Platform】ETL工具(19)——Azure Databricks

發布時間：2023/12/14 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了【Azure Data Platform】ETL工具(19)——Azure Databricks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文屬于【Azure Data Platform】系列。
接上文：【Azure Data Platform】ETL工具(18)——ADF 迭代和條件活動（2）
這次來聊聊Azure Databricks

前言

之所以突然停下ADF的介紹轉而向Azure Databricks，是因為最近公司的項目已經呈現出ADF與Databricks的組合趨勢。為了更好地運維公司的項目，有必要了解一下Databricks。并且大概介紹一下Azure Data Factory和Azure Databricks的關系。

什么是Databricks

今時今日，大數據已經不是新鮮事，也已經被大范圍地使用。大數據中有一個開源引擎Spark用來支持大規模數據分析。主要通過集群，并行地進行數據處理，從而提高數據處理性能。
Databricks簡單來說，就是Azure上的Spark。它可以很容易地與Blob storage, ADLS, SQL DB, PowerBI 等工具集成

Databricks Workspace：一個交互式的工作區，用戶（主要是數據的消費者）可以通過這個工作區進行合作。
Databricks Runtime ：用于支持運行，提高性能。
Databricks File System （DBFS）：類似于DataBricks的存儲，但是對用戶來說是一個抽象層。

它與ADF的區別

ADF主要用于從多個大規模的數據源中進行數據集成，Databricks則通過在單一平臺中統一數據、分析和 AI 工作負載從而簡化數據架構。

ADF是一個PaaS，而Databricks偏向于SaaS。
ADF 偏向于數據集成，Databricks則偏向于數據處理，機器學習等。
ADF是一個低代碼平臺，可以通過拖拽的方式來實現絕大部分功能，而Databricks則提供豐富的編程支持

什么時候使用ADF和Databricks

目的上：

ADF：數據集成和數據移動。
Databricks：主要針對機器學習建模。

功能需求上：

ADF：低代碼帶來的功能并不如Databricks強大。
Databricks：通過編程方式擴展所需功能。

數據處理時效性：

ADF：不適合實時數據流。適合定期抽取數據。
Databricks：通過Spark API，可以實現實時流處理。

綜上所述：如果并不需要實時的，過多定制需求的數集成，且希望學習成本不要太高，那么ADF是值得考慮的。否則，那么在ADF和Databricks之間選擇的話，Databricks更好。

接下來用一點點篇幅介紹如何創建和使用Azure Databricks。

總結

以上是生活随笔為你收集整理的【Azure Data Platform】ETL工具(19)——Azure Databricks的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： NodeJs模块化（KPD）
下一篇：使用Databricks作为分析平台