Hologres揭秘:优化COPY,批量导入性能提升5倍+
Hologres(中文名交互式分析)是阿里云自研的一站式實時數倉,這個云原生系統融合了實時服務和分析大數據的場景,全面兼容PostgreSQL協議并與大數據生態無縫打通,能用同一套數據架構同時支持實時寫入實時查詢以及實時離線聯邦分析。它的出現簡化了業務的架構,為業務提供實時決策的能力,讓大數據發揮出更大的商業價值。從阿里集團誕生到云上商業化,隨著業務的發展和技術的演進,Hologres也在持續不斷優化核心技術競爭力,為了讓大家更加了解Hologres,我們計劃持續推出Hologres底層技術原理揭秘系列,從高性能存儲引擎到高效率查詢引擎,高吞吐寫入到高QPS查詢等,全方位解讀Hologres,請大家持續關注!
往期精彩內容:
- 2020年VLDB的論文《Alibaba Hologres: A cloud-Native Service for Hybrid Serving/Analytical Processing》
- Hologres揭秘:首次公開!阿里巴巴云原生實時數倉核心技術揭秘
- Hologres揭秘:首次揭秘云原生Hologres存儲引擎
- Hologres揭秘:Hologres高效率分布式查詢引擎
- Hologres揭秘:高性能原生加速MaxCompute核心原理
本期我們將帶來Hologers COPY導入性能優化實現性能提升5+倍方面的技術原理解讀。
背景
在PostgreSQL中,COPY命令用于文本文件數據導入,其在PG生態里面有著重要的作用:
- 完美兼容PG幾十種數據類型,包括自定義類型等等。
- 文本解析導入細節考慮的非常完善,也是業界標桿。
- 業務價值,業務集成的成本低,psql一條命令或者copy manager等等無需第三方的集成依賴。
- 日常開發測試中高頻使用,比如tpch測試,功能驗證,線上問題復現等。
Hologres完全兼容PG(PostgreSQL)生態,支持使用COPY命令導入數據,但是在PostgreSQL中,COPY的導入性能差強人意,只有20MB/s。而大數據處理場景,往往需要高性能的寫入,PG的COPY寫入性能不能滿足實際業務。
基于此,Hologres對COPY寫入性能進行了優化,以達到高性能、高可用的目的。本文將會介紹Hologres對COPY命令優化的技術原理,從而實現導入性能5倍+。
COPY瓶頸定位
在早期版本中,COPY導入在Hologres的實現流程圖如下:
執行流程:
1.FE(FrontEnd,前端節點)負責接收用戶的請求,數據流入,以及具體的解析工作(包括分行,拆列,類型Format解析等)。
2.FE把完成解析的數據轉成Arrow寫入到Shuffle Service。
3.HQE(Hologres Query Engine)從Shuffle Service獲取數據,并根據分布鍵完成Shuffle。
4.SE(Storage Engine)把數據流寫入Pangu。
在COPY工作的過程中,能夠看到FE的進程一直處于CPU打滿的狀態,下圖是性能調試時的記錄:
可以確定以下瓶頸:
- Shuffle Service中間節點引入的性能損耗。如上圖的紅框部分,需要將PG的內部數據結構HeapTuple轉換成Arrow并寫入Shuffle Service。
- PG解析本身的耗時,比如,I/O,對數據流切分,按照類型Format解析等等。
改造技術難點
定位了瓶頸之后,結合Hologres現有技術架構,要提升性能,主要有以下幾個難點:
- PostgreSQL的進程模型,有很多Global Runtime Context,多線程改造成本高。
- 類型解析依賴PostgreSQL類型系統,所以無法簡單的利用第三方文本解析庫加速,比如Arrow。
- FE Meta管理過程中,需要PostgreSQL系統表和COPY的交互,從而保證PostgreSQL COPY系統表的行為穩定及正確性。
Hologres優化方案
為了突破上面的難點,從而解決導入效率的問題,Hologres針對FE做了優化,主要是解耦FE工作流程:
- 保證Request進程只負責,接收請求,數據流入以及簡單的數據切分;
- 文本解析的工作交給具備PG計算能力支持的PQE分布式執行,
- 優化后的執行方案如圖:
優化后,數據通過COPY導入Hologres的執行流程如下: - FE負責接收用戶請求,并把流入的數據按行切片,并寫入共享隊列Queue。
- Coordinator把FE和PQE調度到同一臺機器,這樣Queue能以Shared Memory的方式實現,FE和PQE交互更高效。
- PQE從Queue里面獲取對應的切片,并完成拆行,分列,以及具體類型解析。
- HQE從PQE拖取數據,并計算分布并Shuffle。
- SE負責把流入數據寫入到Pangu。
5倍+性能提升
通過對系統的優化,Hologres的COPY導入性能有了質的飛躍。以TPCH lineitem表為例,1億條數據,文件13G,COPY導入性能如下:
可以從圖中看到,優化后,Hologres COPY上傳速度能達200MB/s+,相比PostgreSQL快5倍以上!
總結
Hologres致力于一站式實時數倉,在數據接入上有著非常龐大的生態家族,支持多種異構數據源的離線、實時寫入,包括DataWorks數據集成、Flink、MaxCompute等豐富的寫入方式。在大數據場景中,Hologres完全兼容PostgreSQL的COPY命令,并在此基礎之上,對系統優化,實現了COPY導入性能比PG快5倍+。COPY命令方式導入數據,為Hologres數據接入生態又新增一種方式,滿足業務高性能寫入需求,助力快速搭建企業級實時數倉。
作者:鄭曉文(魯來) 現從事交互式分析Hologres引擎研發工作。
后續我們將會陸續推出有關Hologres的技術底層原理揭秘系列,具體規劃如下,敬請持續關注!
- Hologres揭秘:首次公開!阿里巴巴云原生實時數倉核心技術揭秘
- Hologres揭秘:首次揭秘云原生Hologres存儲引擎
- Hologres揭秘:深度解析高效率分布式查詢引擎
- Hologres揭秘:高性能原生加速MaxCompute核心原理
- Hologres揭秘:如何利用COPY實現高效率導入(本文)
- Hologres揭秘:如何支持高吞吐Upsert
- Hologres揭秘:如何支持在線服務場景的超高QPS
- Hologres揭秘:如何支持高并發查詢
- Hologres揭秘:如何支持高可用架構
- Hologres揭秘:如何支持資源隔離,支持多種負載
- Hologres揭秘:向量檢索引擎Proxima原理與使用實踐
- Hologres揭秘:讀懂執行計劃,查詢性能翻十倍
- Hologres揭秘:分布式系統如何設計Shard與Table Group
- Hologres揭秘:如何支持更多Postgres生態擴展包
- Hologres揭秘:高吞吐寫入Hologres的N種姿勢
- ......
感謝您的閱讀,也歡迎使用體驗Hologres,可以參考使用手冊。
原文鏈接:https://developer.aliyun.com/article/785001?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的Hologres揭秘:优化COPY,批量导入性能提升5倍+的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重磅发布!阿里云云效《阿里巴巴DevOp
- 下一篇: 【活动回顾】Edge X Kuberne