阿里云 vs Azure-大数据
面向 Azure 專業人員的阿里云
本文討論 Azure 和 Alibaba Cloud 在其各自的云環境中提供的大數據服務的主要區別和相似之處,本文主要討論以下服務類型情況和它涵蓋以產品:
1. 數據計算
?
2. 數據業務流程
?
?
以下表格列出了 Azure 大數據產品與 Alibaba Cloud 大數據產品的對比。
| 數據計算 | Azure HDInsight | Alibaba Cloud MaxCompute |
| 數據業務流程 | Azure Data Factory ? Azure Data Catalog | Alibaba Cloud DataWorks |
1. 數據計算
對數據進行轉換,根據需要對數據進行過濾處理和計算。
1.1 服務對比
Azure HDInsight 與Alibaba Cloud MaxCompute 的特性和術語對應關系如下::
| 數據通道 | Tunnel 批量上傳下載/基于SDK開發的插件:DTS、Sqoop、Kettle、CLT | Kafka |
| DataHub 實時傳輸/基于SDK開發的插件:OGG、Flume、LogStash、Flunted | ||
| 數據存儲 | 文件壓縮存儲RaidFile機制 | 默認使用Azure存儲中的Blob容器 |
| 計算及分析任務 | SQL(Hive-like SQL)、UDF | 支持 |
| MapReduce | 支持 | |
| 圖計算 | 不支持 | |
| 非結構化數據處理 | 支持 | |
| Spark | 支持 | |
| ElasticSearch | N/A | |
| BigGraph | N/A | |
| 系統安全 | 權限管理模型: 項目空間的用戶及授權管理 跨項目空間的資源分享 項目空間的數據保護 項目空間的安全配置 | 通過 Azure 虛擬網絡、加密以及與 Azure Active Directory 集成保護企業數據資產 |
| ACL授權 | ||
| Policy授權 | ||
| Package資源分享 | ||
| LabelSecurity訪問控制 | ||
| 開放性/開源生態 | API | 支持Hadoop、Spark、交互式查詢(LLAP)、Kafka、Storm、HBase和ML Services。 |
| SDK:Python、Java | ||
| 日志導入工具:Fluentd、Flume | ||
| 客戶端:CLT、Studio | ||
| 開源代碼:R、Sqoop、ogg、eclipse、JDBCDriver | ||
| 最大規模 | 單集群1W+、可多集群 | Hadoop/Hbase集群 |
| 彈性伸縮 | 支持 | 支持 |
| 熱升級 | 支持 | N/A |
| 準實時 | 支持 | N/A |
| 高可用 | 存儲、調度系統高可用,無單點故障 | HDInsight 群集提供兩個頭節點 |
1.2 產品對比概覽
Azure HDInsight
Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop組件的云發行版,用于快速且經濟有效地處理大量數據。支持Hadoop、Spark、Hive、LLAP、Kafka、Storm、R 等最常用的開源框架,并通過這些框架啟用各種各樣的方案,例如提取、轉換和加載 (ETL)、數據倉庫操作、機器學習、IoT。Azure HDInsight是適用于企業的分析服務,具有完全托管、全面且開源的特點。
Alibaba Cloud MaxCompute
Alibaba Cloud MaxCompute 是國內最大的大數據云服務平臺,提供海量的數據存儲,海量的數據計算,多組織間的數據交換。MaxCompute是Alibaba group自主研發的一套大型的分布式計算系統,MaxCompute支持多集群雙活/災備,用戶不用關注基礎設施穩定性,而是關注自己的業務內容,MaxCompute本身提供服務的一致性與連續性。Alibab Cloud MaxCompute 提供了一組豐富的大數據開發工具,改進了數據的導入和導出的解決方案,以及各種經典的分布式計算模型,能夠更快速的解決海量數據計算問題,有效降低企業成本,并保障數據安全。
?
1.3 產品優劣勢對比
Azure HDInsight產品優勢
- 云原生:可以使用Azure HDInsight在Azure上為Hadoop、Spark、交互式查詢 (LLAP)、Kafka、Storm、HBase和 ?ML Services 創建優化群集,并提供端到端的SLA。
- 支持彈性擴展:可以通過HDInsight彈性擴展。可以通過創建按需群集來降低成本,按需付費。
- 安全合規:HDInsight允許通過Azure虛擬網絡、加密以及與Azure Active Directory集成來保護企業數據資產。 HDInsight滿足常用的行業和政府符合性標準。
- 監控:Azure HDInsight集成Azure Log Analytics,可以通過單個界面來監視所有群集。
- 工作效率:Azure HDInsight 允許將各種適用于Hadoop和Spark的高效工具與首選的開發環境配合使用,包括Visual Studio、VSCode、Eclipse 和 IntelliJ,可以提供 Scala、Python、R、Java和.NET支持。
- 可擴展性:可以使用腳本操作通過安裝的組件(Hue、Presto 等)來擴展 HDInsight 群集。
Azure HDInsight產品劣勢
Azure HDInsight底層架構基于開源Hadoop、Spark等產品。MaxCompute通過高并發處理和執行計劃優化,在CPU-IO 敏感性計算及大數據量Join計算等場景表現更優。在數據量及資源量同比放大情況下,MaxCompute 的計算時間更加穩定, 能夠充分利用分配到的計算資源,計算和資源量呈線性關系增長。在相同數據量,相同資源下,相同測試集同等標準情況下,MaxCompute整體表現性能更優。此外,MaxCompute高度產品化,使用門檻低。
1.4 對比結論
綜上所述,在數據計算領域,MaxCompute的優勢在于:
- 計算快,性能優
- 超大規模計算及存儲
- 集多種計算引擎與一身
- 支持多集群、跨集群計算
- 大數據集成開發環境
- 極大的降低企業使用成本
- 高穩定性和安全性
?
2. 數據業務流程
對數據進行數據傳輸、數據轉換等相關操作,從不同的數據存儲引入數據,對數據進行轉化處理,最后將數據提取到其他數據系統,完成整個數據的采集、轉換、開發、分析流程。
2.1 服務對比
Azure Data Factory、Azure Data Catalog 與 Alibaba Cloud DataWorks 的特性和術語對應關系如下:
| 數據采集 | 實時采集 | 不支持 | N/A | 支持 |
| 批量采集 | 支持 | N/A | 支持 | |
| 客戶端采集 | 不支持 | N/A | 支持 | |
| 本地數據 | 支持(部署代理網關) | N/A | 支持 | |
| 云數據 | 支持 | N/A | 支持 | |
| 異構數據源 | Azure存儲、數據庫、文件 | N/A | 支持20多種(RDBMS、NoSQL、MPP、非結構化存儲、大數據存儲等) | |
| 數據管理 | 搜索發現數據 | N/A | 支持 | 支持 |
| 捕獲元數據 | N/A | 支持 | 支持 | |
| 版本管理 | N/A | 不支持 | 不支持 | |
| 捕獲schema變化 | N/A | 不支持 | 不支持 | |
| 自動識別檢測 | N/A | 不支持 | 不支持 | |
| 批注/闡述 | N/A | 支持 | 不支持 | |
| 收藏/結構化標簽 | N/A | 支持 | 不支持 | |
| 數據血緣 | N/A | N/A | 支持 | |
| 數據轉換開發 | 自動生成代碼 | 不支持 | N/A | 不支持 |
| 在線編輯 | 不支持 | N/A | 支持 | |
| 版本管理 | 不支持 | N/A | 支持 | |
| 方式 | 基于計算引擎(HDInsight, Data Lake Analytices U-SQL, Machine Leaning,R) | N/A | 基于計算引擎(ODPS SQL, SHELL, PAI) | |
| 編排及任務調度 | 觸發方式 | 周期 | N/A | 周期、API觸發 |
| serveless | 支持 | N/A | 支持 | |
| 自動重跑 | 支持 | N/A | 支持 | |
| 監控告警 | 監控儀表盤 | 支持 | N/A | 支持 |
| 告警 | 支持 | N/A | 支持 | |
| 數據質量 | 離線監控 | 不支持 | 不支持 | 支持 |
| 在線監控 | 不支持 | 不支持 | 支持 | |
| 自定義監控規則 | 不支持 | 不支持 | 支持 | |
| 開放性 | API | 支持 | 支持 | 支持 |
| SDK | 支持 | 支持 | 不支持 |
2.2 產品對比概覽
Azure Data Factory
Azure的數據集成開發工具Data Factory上線已久,集合了數據集成、數據開發、任務監控等功能。2017年下半年,Data Factory發布V2版本,重構了功能模型,新增了可視化拖拽編輯、復雜流程控制,加強了任務監控功能,在復雜場景的勝任能力以及用戶體驗方面有長足進步。
Azure Data Factory是基于云的數據集成服務,用于在云中創建數據驅動型工作流,以便協調和自動完成數據移動和數據轉換。使用 Azure Data Factory可執行以下任務:
- 創建和計劃數據驅動型工作流(稱為管道),以便從不同的數據存儲引入數據。
- 使用計算服務(例如 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure 機器學習)處理或轉換數據。
- 將輸出數據發布到數據存儲(例如 Azure SQL 數據倉庫),供商業智能 (BI) 應用程序使用。
Azure Data Catalog
Azure Data Catalog(數據目錄)旨在幫助企業充分利用現有的信息資產。數據目錄可幫助管理數據的用戶更輕松地發現和理解數據源,數據目錄提供基于云的服務,可在其中注冊數據源:數據保留在現有位置,但其元數據的副本將連同數據源位置的引用一起添加到數據目錄。此元數據還會編制索引,方便通過搜索功能輕松發現每個數據源,并讓發現數據源的用戶理解該數據源。
注冊數據源之后,注冊數據源的用戶或企業中的其他用戶可以充實其元數據。任何用戶都可以提供描述、標記或其他元數據(例如請求數據源訪問權限的文檔和過程)來批注數據源。此描述性元數據可補充從數據源注冊的結構化元數據(例如列名和數據類型)。
注冊源的主要目的是發現和理解數據源及其用途。 企業用戶可能需要用于商業智能、應用程序開發、數據科學或需要正確數據的任何其他任務的數據。 他們可以使用“數據目錄發現”體驗快速查找符合其需求的數據、了解數據以評估其適用性,并通過在其所選工具中打開數據源來使用數據。
與此同時,用戶還可通過對已注冊的數據源進行標記、記錄和批注來參與目錄。用戶還可以注冊新的數據源,隨后目錄用戶的社區可以發現、了解和使用這些數據源。
DataWorks
- 產品定位:一站式大數據平臺,覆蓋數據集成、數據管理、數據開發、數據運維、數據服務共享、數據安全、數據質量等大數據生命周期中的各個階段
- 方法論:Cloud Data Warehouse、流計算
- 目標用戶:數據開發者(數據集成、數據開發、數據運維)、數據管理者(數據管理、數據安全、數據質量)、數據使用者(數據管理、數據服務、實時分析)
- 使用方式:Web端
- 部署方式:公有云Serverless、專有云
- 開發語言:SQL、Java(OpenMR)、Python、R等
- 服務等級:公測(數據集成已正式商業化)
- 底層引擎:MaxCompute、Blink。
?
2.3 產品優劣勢對比
Azure Data Factory產品優勢
- 嚴謹的概念模型。抽象了數據處理過程中所有可能的對象和行為,建立了一套自洽的體系和方法論,幾乎沒有歧義的可能,并易于未來的功能擴展。
- 豐富的生態體系。Data Factory將支持的數據源與處理引擎抽象為Linked Service對象,只是在不同的Activity中支持的Linked Service范圍有所差異。根據官方文檔,其支持68種不同的Movement數據源,支持8種不同的Transformation處理引擎。
- 統一的用戶體驗。Data Factory作為一個Azure的“窗口”,與Azure的其他產品在體驗上是一致的,甚至不需要新建瀏覽器窗口或標簽頁(在一個頁面內部可以有多個窗口)。
- 全面支持文本方式操作。所有對象的定義,都通過JSON進行;所有的界面操作,都由對應的Azure Powershell命令。用戶完全可以脫離瀏覽器使用,并通過文本保存自己的勞動成果。
Azure Data Factory產品劣勢
- 不支持Activity的在線編輯。沒有提供在線編輯器,所有Activity(尤其是Transformation)類型,都需要上傳腳本,或定義存儲過程,用戶體驗較差。
- 只支持Pipeline層級的Trigger。也即在Pipeline內部,無法對Activity定義時間要求,只要滿足dependOn屬性,Activity就會執行。
- 監控能力羸弱。對Pipeline的監控完全依托Azure Monitor,也沒有對數據質量的監控。
Azure Data Catalog產品優勢
-
完整的元數據管理企業級方案
Data Catalog沉淀了Azure在企業級數據管理上的經驗。Data Catalog與Azure AD集成,便于管理企業組織與人員權限,按照所有權、批注權、注冊權、可見性來管理元數據權限,通過術語來規范對資產對象和資產屬性的描述。以上這些特效,都適合企業級協作場景的功能,構成了較為完整的解決方案。 -
數據知識共享與管理
Data Catalog不僅管理元數據,還管理元數據相關的知識:
- Data Profile是亮點功能
在資產對象注冊的同時,Data Catalog會收集Data Profile,包含反映數據特征的統計信息,便于用戶形成對數據內容的感性認識。
Azure Data Catalog產品劣勢
- 在界面交互方面,Data Catalog脫離了Azure控制臺,但仍保持了很好的用戶體驗。整個界面信息量充實,又對初次使用者較為友好,但有幾方面限制了新用戶的加入:
- Data Catalog相對于Azure其他產品較為獨立。在功能上聚焦于數據目錄和關聯知識的管理,沒有與Data Factory形成聯動,應用場景較為受限。與其他產品聯動的前提,是DataPipeline與其他產品無縫結合,數據傳輸的延遲足夠小,發生兼容性問題的可能性足夠低。
2.4 對比結論
綜上所述,在數據倉庫及數據業務流程領域,DataWorks的優勢在于:
- 數據集成:支持流控,支持實時同步。
- 數據開發:強大的在線編輯功能,體驗媲美離線IDE。
- 監控運維:支持業務基線監控。
- 數據管理:完整的數據管理功能,更提供分級分類與數據脫敏等獨特功能。
- 數據質量:競品中獨有功能。
?
總結
以上是生活随笔為你收集整理的阿里云 vs Azure-大数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HTML5小游戏程序案例--冰桶挑战h5
- 下一篇: 职教云计算机考试上传图片,2017全国计