海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介...
近年來,數(shù)據(jù)規(guī)??焖僭鲩L,使得Hadoop、Spark等大數(shù)據(jù)批處理系統(tǒng)在現(xiàn)實中得到了廣泛應(yīng)用。同時,應(yīng)用對數(shù)據(jù)處理時效性需求不斷加強,促使諸如Flink的大數(shù)據(jù)流式處理系統(tǒng)應(yīng)運而生。現(xiàn)實中的很多大數(shù)據(jù)應(yīng)用,比如高通量視頻處理應(yīng)用,既需要處理大量數(shù)據(jù),又對數(shù)據(jù)處理時延有極高要求,亟需將批處理技術(shù)和流式處理技術(shù)進行整合。在處理器方面,GPU已成為加速數(shù)據(jù)處理的重要硬件,而現(xiàn)有的大數(shù)據(jù)處理技術(shù)如Hadoop、Spark、Flink仍以通用處理器為主。因此,有必要系統(tǒng)地開展研究,構(gòu)建面向CPU-GPU異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù)與系統(tǒng),充分利用新型硬件的加速特性。
1. 技術(shù)發(fā)展現(xiàn)狀
項目團隊國家重點研發(fā)計劃“面向異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù)與系統(tǒng)”,是由華東師范大學(xué)牽頭,聯(lián)合湖南大學(xué)、西北工業(yè)大學(xué)、東北大學(xué)、中國人民解放軍國防科技大學(xué)、湖南城市學(xué)院、湖南工業(yè)大學(xué)、武漢大學(xué)、南開大學(xué)、浪潮電子信息產(chǎn)業(yè)股份有限公司、中網(wǎng)數(shù)據(jù)(北京)股份有限公司等十家高校和企業(yè)單位共同承擔(dān)的云計算和大數(shù)據(jù)專項項目。項目啟動于2018年5月,執(zhí)行期3年。
在應(yīng)用方面,項目團隊與中國鐵路廣州局集團有限公司株洲車輛段和湖南新型智慧城市研究院建立了合作,分別在“中歐班列”快速貨運列車故障檢測、“天眼工程”大中城市交通監(jiān)控等項目上進行了深入研究并積累了大量視頻數(shù)據(jù)。在研究方面,項目團隊承擔(dān)或參與多項973、863計劃項目、國家自然科學(xué)基金系列項目,在并行與分布式系統(tǒng)、海量數(shù)據(jù)處理、海量存儲系統(tǒng)、內(nèi)存計算、可重構(gòu)計算、視頻處理等領(lǐng)域開展了一系列前沿性研究工作。在 SIGMOD、VLDB、ICDE、AAAI、IJCAI、HPDC、IPDPS、TPDS、TKDE、TOC、JPDC等重要國際會議和期刊發(fā)表論文150余篇,成果應(yīng)用于交通銀行、華為、浪潮、NEC、江蘇移動、國家電網(wǎng)等大規(guī)模數(shù)據(jù)處理系統(tǒng)和軟件產(chǎn)品中。項目團隊成員先后參與研制銀河系列巨型機、天河系列超級計算機及應(yīng)用(“天河二號”超級計算機在 Top500 排行榜上獲六連冠),并負責(zé)國家超級計算長沙中心運營。
研究內(nèi)容項目根據(jù)三個科學(xué)問題設(shè)置了七項研究內(nèi)容,分為五個課題進行研發(fā)(如圖2所示)。
圖2. 項目的課題設(shè)置
課題一:面向大數(shù)據(jù)集的數(shù)據(jù)流編程模型及示范應(yīng)用
課題一主要應(yīng)對科學(xué)問題一,對數(shù)據(jù)流編程模型所涉及的主要關(guān)鍵技術(shù)進行系統(tǒng)研究,旨在對傳統(tǒng)的編程模型進行擴展,定義數(shù)據(jù)流編程語言的原語及其編譯前端等工具鏈。課題一產(chǎn)生數(shù)據(jù)流中間代碼,用于描述應(yīng)用層處理的語義,同時結(jié)合“中歐班列”和“天眼工程”兩個場景,利用數(shù)據(jù)流編程模型開發(fā)示范應(yīng)用系統(tǒng),以此驗證CPU-GPU異構(gòu)體系結(jié)構(gòu)對高通量視頻處理的提升效果。
課題二:面向數(shù)據(jù)流的分布式處理引擎與性能優(yōu)化
課題二對三個科學(xué)問題都有涉及,傳統(tǒng)數(shù)據(jù)處理系統(tǒng)根據(jù)應(yīng)用場景的不同,分為處理歷史數(shù)據(jù)的批處理、處理在線數(shù)據(jù)的流處理兩類。課題二通過控制數(shù)據(jù)集的處理窗口等方式,兼容現(xiàn)有的批處理和流處理兩類任務(wù),構(gòu)建面向數(shù)據(jù)流的分布式處理引擎。課題二編譯和解析課題一輸出的“聲明式”的數(shù)據(jù)流中間代碼,結(jié)合異構(gòu)計算集群的信息,輸出刻畫分布式異構(gòu)環(huán)境下如何具體執(zhí)行的任務(wù)拓撲圖。
課題三:分布式異構(gòu)系統(tǒng)資源管理及數(shù)據(jù)流性能分析工具
課題三主要應(yīng)對科學(xué)問題二和三,提供分布式下異構(gòu)資源的管理,研究數(shù)據(jù)流任務(wù)拓撲圖的合理異構(gòu)資源配置、調(diào)度和管理,對其他的課題的開展發(fā)揮著重要作用。異構(gòu)集群中的每個執(zhí)行節(jié)點都包含GPU 和CPU等異構(gòu)資源,需要進行統(tǒng)一的資源管理。不合理的資源管理,使得某些節(jié)點因為任務(wù)多造成資源嚴重過載,或者因為任務(wù)少而閑置資源,這使得資源的利用率非常低。此外,數(shù)據(jù)流任務(wù)在執(zhí)行過程中,面臨數(shù)據(jù)流量、數(shù)據(jù)傾斜等變化因素,因此需要監(jiān)控和分析數(shù)據(jù)流應(yīng)用的性能參數(shù)。
課題四:異構(gòu)體系結(jié)構(gòu)的分布式數(shù)據(jù)存儲與管理
課題四主要應(yīng)對科學(xué)問題三,實現(xiàn)面向多種數(shù)據(jù)的統(tǒng)一物理存儲模型和元數(shù)據(jù)管理,為數(shù)據(jù)流處理系統(tǒng)提供高效的數(shù)據(jù)緩存和可靠的數(shù)據(jù)持久化機制。課題四旨在解決在高通量的數(shù)據(jù)流處理模型中低效的數(shù)據(jù)存儲訪問問題,以及分布式數(shù)據(jù)處理的容錯問題?;跀?shù)據(jù)流處理模型,面向高通量的實時數(shù)據(jù)處理應(yīng)用,提供中間結(jié)果和檢查點的持久化。
課題五: 面向CPU-GPU異構(gòu)節(jié)點的混合執(zhí)行引擎
課題五主要應(yīng)對科學(xué)問題二,異構(gòu)體系結(jié)構(gòu)節(jié)點執(zhí)行引擎部分主要包括基于GPU的粗粒度并行、利用單SM部署多kernel的數(shù)據(jù)流圖細粒度流水并行,以及異構(gòu)系統(tǒng)任務(wù)劃分和負載均衡。課題五實現(xiàn)基于CPU-GPU粗/細粒度并行,并在單節(jié)點內(nèi)部實現(xiàn)CPU和GPU間的任務(wù)劃分和負載均衡。存儲訪問優(yōu)化則通過節(jié)點內(nèi)的CPU和GPU統(tǒng)一虛擬地址共享,以實現(xiàn)數(shù)據(jù)流的低延遲處理。課題五還將研究數(shù)據(jù)與模型的壓縮技術(shù),保證計算精度的同時,提高計算吞吐率。
本項目的五個課題之間既相互聯(lián)系又相對獨立,課題間的關(guān)系如圖3所示。
圖3. 課題之間的邏輯關(guān)系
課題一旨在根據(jù)應(yīng)用的處理邏輯,產(chǎn)生數(shù)據(jù)流中間代碼,并調(diào)用課題二的處理接口,從而實現(xiàn)數(shù)據(jù)流的執(zhí)行。此外,課題一使用課題四提供的多層存儲系統(tǒng)緩存高通量視頻示范應(yīng)用中攝像頭產(chǎn)生的實時視頻流數(shù)據(jù)流,解決視頻注入和視頻處理的不匹配。
課題二根據(jù)其他課題的研究成果,進行分布式處理引擎的性能優(yōu)化。利用課題三提供的異構(gòu)體系集群的資源使用和數(shù)據(jù)流性能信息,實現(xiàn)數(shù)據(jù)流任務(wù)拓撲的靜態(tài)優(yōu)化和動態(tài)優(yōu)化。課題二需要考慮課題四的存儲和計算的高效劃分,降低數(shù)據(jù)傳輸開銷。為了避免系統(tǒng)故障導(dǎo)致數(shù)據(jù)流應(yīng)用的狀態(tài)發(fā)生丟失,需要結(jié)合課題四提供的檢查點持久化,共同實現(xiàn)數(shù)據(jù)流應(yīng)用的容錯處理。
課題三為課題二分配分布式異構(gòu)計算資源。數(shù)據(jù)流任務(wù)在執(zhí)行過程中,面臨任務(wù)執(zhí)行中數(shù)據(jù)流量、數(shù)據(jù)傾斜等變化因素,因此課題三提供的運行時性能分析調(diào)優(yōu)是課題二進行數(shù)據(jù)流處理任務(wù)靜態(tài)優(yōu)化和動態(tài)優(yōu)化的基礎(chǔ)。
課題四通過實現(xiàn)面向多種數(shù)據(jù)的統(tǒng)一物理存儲模型和元數(shù)據(jù)管理,為課題一的示范應(yīng)用提供高效穩(wěn)定的分布式數(shù)據(jù)緩存,為課題五提供多種針對性的數(shù)據(jù)訪問方式和存儲操作原語,也有效地避免數(shù)據(jù)訪問瓶頸,支撐課題五中的低延遲處理。對檢查點的分布式持久化機制也為課題二實現(xiàn)數(shù)據(jù)流容錯處理提供保障。
課題五充分發(fā)揮CPU-GPU異構(gòu)體系結(jié)構(gòu)的性能優(yōu)勢,對課題二產(chǎn)生的任務(wù)拓撲子圖進行加速執(zhí)行。課題五利用課題三提供的CPU-GPU異構(gòu)資源抽象,實現(xiàn)CPU-GPU混合比例的優(yōu)化。此外,課題五通過異構(gòu)地址空間共享技術(shù),優(yōu)化課題四提供的數(shù)據(jù)訪問功能。
預(yù)期成果項目的預(yù)期成果包括面向CPU-GPU異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù):含數(shù)據(jù)流編程工具鏈、統(tǒng)一數(shù)據(jù)處理引擎、異構(gòu)資源管理和數(shù)據(jù)管理系統(tǒng),以及高通量視頻處理GPU加速模塊等,實現(xiàn)“中歐班列”快速貨運列車故障檢測、“天眼工程”大中城市交通監(jiān)控等高通量視頻典型應(yīng)用示范。
圖4. 列車安全系統(tǒng) & “天眼工程”
圖5. 交通檢測和列車故障檢測初步效果圖
文案 | 王嘉倫
排版 | 壽暖瑜
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院
總結(jié)
以上是生活随笔為你收集整理的海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pythonsqlite3教程_使用 P
- 下一篇: python编程能力等级测试_56岁的潘