初探Azure Synapse
Azure之類的超大規模云服務旨在處理大量數據,在購買存儲硬件時會利用其規模經濟優勢。 他們與Bing和Google等搜索引擎的密切關系使他們可以基于為分析公共互聯網而開發的算法和工具。 兩者的結合使它們成為構建需要處理海量數據集的應用程序的理想平臺,而這在您自己的數據中心中是無法實現的。
自成立之初,Microsoft就在Azure上提供了一系列數據和分析服務,從其自己的SQL數據庫(該數據庫很快成為了熟悉的SQL Server的云托管版本)開始,添加了HDInsight for Hadoop和其他Apache數據服務,以及提供了一個大型數據湖,可讓您混合結構化和非結構化數據。 直到最近,這些服務中的大多數還是獨立的,并且如果您想將它們組合在一起,則需要構建自己的分析工具。 在Ignite 2019上 ,Microsoft將Azure現有的SQL數據倉庫作為Azure Synapse進行了發布 ,重新組織和重新命名,從而增加了對Apache Spark及其自己的Studio開發和分析工具的支持。
引入Azure Synapse
Azure Synapse 不僅僅是對現有產品的品牌重塑 ,其重點是將Azure的許多數據分析功能集成到單個服務中。 與傳統的數據倉庫不同,它支持混合的關系數據和非結構化數據,同時仍然允許您使用現有的SQL技能來建立和測試分析模型,并基于Azure SQL的PolyBase大數據查詢引擎。 由于它使用內存中的列存儲,因此它快速高效,這是使用云服務使用模型時的重要功能。
Synapse與其他數據倉庫產品的不同之處在于其源于Azure SQL的hyperscale選項 。 它使用Microsoft稱為“數據倉庫單元”的群集,而不是由單個計算節點處理所有查詢。 這些獨立于基礎存儲的查詢計算,使Synapse可以采用海量數據并行方法來處理您的查詢。 每個數據倉庫單元都具有計算和自定義應用程序,即數據移動服務,該應用程序跨節點并與Azure存儲一起使用,以確保在正確的節點中可獲得正確的數據。 肯定很快。 Ignite的一個演示將其與30 PB數據集上的Google Big Query進行了比較,并顯示Synapse的速度提高了75倍。
這種架構也有價格優勢。 與Azure的Paas功能一樣,它基本上是無服務器的,可以按需旋轉,并在不再需要時暫停。 這樣,您只需為用于運行查詢和基礎存儲的計算付費,并根據需要添加更多計算以進行更復雜的分析。
Azure Synapse SQL池入門
為Azure Synapse創建新的SQL池遵循與Azure數據倉庫相同的路徑。 首先在Azure門戶中創建新的SQL數據倉庫資源。 這使您可以創建具有登錄名和密碼的新服務器。 選擇性能級別將選擇默認服務器類型,該服務器類型將設置池的計算成本。 一旦配置好并設置了適當的防火墻規則,您就可以通過選擇SQL Server管理工具開始對其進行管理。 查詢是使用熟悉的T-SQL方言構建的。 您可以使用PolyBase 將Azure blob存儲中的數據加載到臨時表中,該臨時表用于構建生產表,然后將這些表用于查詢。
如果您更喜歡使用Apache Spark分析數據,則該平臺將與Apache Spark而不是SQL一起使用。 這種方法為您提供了額外的靈活性,使您可以為問題選擇合適的工具。
如果您有現有的Azure SQL數據倉庫實例,則可以在Azure Synapse中運行它,從而為使用關系數據和非關系數據的復雜數據集提供了更多選擇。 有趣的是,Microsoft承諾與Open Data Initiative源進行集成,其中應包括對Adobe的Marketing Cloud,SAP以及Microsoft自己的Dynamics平臺中數據的支持。 Microsoft正在計劃用于其他數據源(包括第三方)的連接器。
在Synapse Studio中構建查詢
Synapse Studio是新的組合分析平臺的關鍵元素。 它充當一個單一的窗格,用于構建,測試和查看查詢結果。 您可以將其與代碼一起使用,也可以不與代碼一起使用,在運行查詢和構建報告之前選擇并選擇不同的表和源。 可以將同一工具與一次性查詢一起使用,以幫助解決特定問題,也可以構建重復查詢,這些重復查詢可以使用Azure Data Factory進行自動化 ,在其中您需要獲取各種數據源的常規報告。
一個有用的功能是Azure Synapse與Power BI的集成。 數據分析師可以使用Azure Synapse構建可以移交給業務分析師的模型,后者可以使用Power BI的可視化分析工具來構建和運行自己的查詢,以尋找與自己的興趣相關的結果。 這種方法減少了找到特定業務問題答案的時間,因為數據團隊無需在業務分析師完善其查詢的同時不斷重建模型并運行昂貴的分析流程。 Power BI集成將確保可以將使用機器學習和其他Azure服務的預建查詢內置到執行人員儀表板中,以近乎實時地訪問關鍵業務指標。
從分析到機器學習
訪問諸如Azure Synapse中的大型數據存儲可以幫助訓練您自己的機器學習模型。 Synapse的Studio開發工具包括一個類似于Jupyter Notebook的草圖板,用于在Azure機器學習管道中使用新模型之前對其進行構建和測試。 支持R統計數據探索語言以及機器學習的主要工具Python。
Microsoft將Azure Synapse描述為“ PB級”平臺。 我們中的大多數人都不需要以這種規模工作,但是以這種規模提供結果的工具可以與較小的數據集以及來自IoT設備的流數據同樣有效地工作。 Microsoft建議使用Azure Synapse處理超過1TB的數據,最小數據集大小為250GB。
借助Azure Synapse能夠以相對較小的規模啟動并快速擴展,以及與數據科學家和業務分析師以及數據庫倉庫專家共享數據倉庫中的數據的能力,使其成為其他內部部署和內部部署的有吸引力的替代方案。云分析工具-特別是可以選擇在相同的基礎數據集上使用特定于角色的工具。
From: https://www.infoworld.com/article/3489176/a-look-at-azure-synapse.html
總結
以上是生活随笔為你收集整理的初探Azure Synapse的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: GeneXus
 - 下一篇: [Android] 隐藏头顶状态栏