drill apache_使用Apache Drill深入研究当今的大数据
drill apache
自2014年9月首次提供Beta版以來, Apache Drill一直在獲得廣泛的用戶采用和社區動力。2015年5月發布了Drill的通用版本-Drill 1.0,此后大量客戶在生產中部署和使用了Drill。 在這篇博客文章中,我將簡要總結客戶在Drill中發現非常寶貴的一些關鍵功能。 我還將介紹部署Drill的常見用例,以及Drill入門資源。
為什么Drill對客戶具有吸引力
Drill提供對任何類型數據SQL訪問,具有極大的靈活性和易用性
使用Drill,您可以在短短幾分鐘之內查詢文件,Hive數據倉庫,HBase表甚至是非基于Hadoop的存儲系統中的數據,并且可以動態合并這些來源的數據。 無需定義和維護任何中央元數據定義。 鉆取就地查詢數據并即時發現模式。 通過利用高級SQL解析器( Apache Calcite )提供的全面SQL支持,Drill還提供了SQL擴展,以本地查詢和操作復雜數據類型,例如大多數新數據源中常見的數組和映射(如網站點擊,社會,傳感器數據)。 Drill還帶有ODBC / JDBC驅動程序,因此可以很容易地將其插入到Tableau和MicroStrategy等BI工具中,以在組織中廣泛使用。
演練可提供大規模的低延遲性能
Drill是專為復雜數據而構建的分布式列式SQL查詢引擎 。 它不使用MapReduce,Tez或Spark 。 Drill可以部署在單個節點上,也可以水平擴展到10s到100s到1000s的節點,具體取決于需要支持的用戶數量,要滿足的性能SLA以及需要處理的數據量。 除了規模之外,Drill還具有出色的性能。 內存中的柱狀執行引擎旨在優化短查詢的處理,結合了高級和可插入的優化功能,包括分區修剪,下推運算符以及基于規則和基于成本的查詢重寫功能。 這些功能使Drill在大數據生態系統中成為強大的交互工具。
Drill提供了精細且分散的安全模型
Drill中的視圖通常用作管理單元,以提供對Hadoop數據的細化行和列級訪問控制。 與其他SQL技術/工具不同,鉆取視圖是分散的實體,并且可以簡單地維護為文件系統上的文件(用戶可以選擇文件系統位置來創建視圖作為查詢的一部分)。 這意味著可以使用文件系統權限來保護視圖,而無需建立單獨的安全性存儲庫來管理權限。
此外,Drill支持用戶模擬,因此特定的用戶身份可用于訪問這些視圖,而不是系統或進程用戶訪問數據,這在某些用戶環境中是不可接受的。 Drill還提供了強大的所有權鏈接功能,可控制給定用戶可以訪問多少級嵌套視圖,因此組織可以在自助數據探索與受控治理之間取得平衡。
演練用例
在更廣泛的層面上,Drill的用例是對存儲在Hadoop數據湖/數據中心中的數據提供自助式BI /臨時查詢。 在這個保護傘下存在幾個子用例 ,下面是一些常見的使用模式,我們看到客戶在其環境中利用Drill。 請注意,根據數據處理和報告要求的類型,通常會同時使用這些用例的混合。
- 原始數據瀏覽:數據通常以文本和JSON等原始數據格式進入Hadoop集群。 目標是以自助服務的方式盡快將其提供給最終用戶,分析師,數據科學家和其他SQL專家查詢。 這是我們看到客戶開始使用Drill時功能最強大,障礙最小的切入點。 Drill為這些大型原始數據集提供了啟發(有時由于處理的復雜性和成本而忽略了數據集),立即打開了新型的BI用例,例如支持概念和查詢的即席證明,新產品開發,數據發現用于構建模型,數據探索和數據質量報告。
- Hive表上的低延遲查詢:在此用例中,首先使用Hive ETL作業對來自各種數據源(通常是傳統系統的負載)到達Hadoop集群的數據進行建模,預處理和轉換。 目標是打開存儲在Hive中的BI / adhoc查詢數據集。 這是標準用例,幾乎所有Hadoop工具上SQL都致力于解決此問題。 Drill憑借其ANSI SQL功能,與Hive的深度集成(允許重用Hive資產(例如文件格式,UDF和元數據定義))以及在通過Hive進行的查詢方面的巨大性能提升,為該用例提供了強大的價值。
- HBase / MapR-DB上的操作分析 :在此用例中,HBase / MapR-DB用作需要頻繁更新的廣泛,稀疏且經常動態的數據集的操作數據存儲/數據中心。 Drill具有從NoSQL數據源實時發現架構的能力,并具有全面SQL功能支持以讀取/解釋各種數據類型和編碼,Drill成為查詢這些系統中數據的自然工具。
產品進度
Drill社區正在通過迭代發布在產品上取得快速進展。 在GA中提供了核心基礎之后不久,便在7月發布了新的1.1版本(請參閱發行說明),它基于支持上述用例的功能集以及對SQL支持,性能,規模和企業的持續改進。可管理性。 Drill 1.2版本中還有更多令人興奮的增強功能,您也可以檢出。
如何開始使用Drill
- 在10分鐘內開始在筆記本電腦上使用Drill
- 將Drill與Hadoop結合使用-MapR沙箱和教程
- 嘗試使用Amazon Web Services進行鉆取
- 將Drill下載到您的MapR集群
- 按需訓練
- 詳細的分步教程
有關完整文檔,請參閱http://drill.apache.org/docs 。 其他資源可以在http://mapr.com/apachedrill找到
您有關于Apache Drill的問題嗎? 在下面的評論部分中詢問他們。
翻譯自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html
drill apache
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的drill apache_使用Apache Drill深入研究当今的大数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mycat和应用程序集成_企业应用程序集
- 下一篇: 教你win7局域网设置方法如何 局域网电