面向大数据处理应用的广域存算协同调度系统
點擊上方藍字關注我們
面向大數據處理應用的廣域存算協同調度系統
張晨浩1,2,?肖利民1,2,?秦廣軍3,?宋堯1,2,?蔣世軒1,2,?王繼業4
1?軟件開發環境國家重點實驗室,北京 100191
2?北京航空航天大學計算機學院,北京 100191
3?北京聯合大學智慧城市學院,北京 100101
4?國家電網有限公司大數據中心,北京 100031
?摘要:以我國研發的高性能計算虛擬數據空間系統為基礎,針對大數據處理應用如何統籌利用廣域存儲和計算資源的問題,設計并實現了一套面向大數據處理應用的廣域存算協同調度系統。該系統可依據應用的計算特征和數據布局,通過存算協同、負載均衡、數據局部性感知等策略,在廣域環境中協同調度應用數據和計算任務,統籌利用廣域計算和存儲資源,有效提升大數據處理應用的運行性能。在國家高性能計算環境中實際測試的結果表明,提出的調度方法可有效地支撐大數據處理應用,跨域目標協同識別、分子對接等典型應用的運行效率可提升3~4倍。
關鍵詞:廣域存算協同調度?;?大數據處理應用?;?虛擬數據空間?;?高性能計算環境
論文引用格式:
張晨浩, 肖利民, 秦廣軍, 等. 面向大數據處理應用的廣域存算協同調度系統[J]. 大數據, 2021, 7(5): 82-97.
ZHANG C H, XIAO L M, QIN G J, et al. A wide-area collaborative scheduling system oriented to big data processing applications[J]. Big Data Research, 2021, 7(5):? 82-97.
1 引言
傳統高性能計算應用(如高能物理、氣象預報、生物信息等)的計算和數據量大且跨域分布,而且隨著移動互聯網、物聯網等新一代信息技術的蓬勃發展,新興應用(如智慧城市、精準醫療等)也不斷產生大量數據且這些數據分布更加廣泛,從GB級、TB級發展到ZB級,甚至YB級。這促使數據密集型和計算密集型任務的數據規模和計算規模逐步增加,多中心協同處理海量數據正在成為發展趨勢。高性能計算(high performance computing,HPC)平臺也從傳統的高性能計算領域逐步拓展到大數據處理領域,可有效滿足大數據采集、過濾、索引、分析、處理所需的硬性要求。為了滿足數據處理的更大規模需求,國內外紛紛投入大量資源建立跨多超級計算中心(以下簡稱超算中心)的廣域高性能計算環境,旨在提供規模更大、性能更強的數據處理平臺,以支撐科學發現和科技創新。
美國國家科學基金會的極限科學與工程發現環境(XSEDE)項目旨在將廣域分散自治的多家機構互聯,并實現廣域資源共享,以提供更好的科學研發環境。XSEDE可以存儲、管理、處理海量的科學數據,為科學家提供一站式服務。作為一個集成了多種資源的單一虛擬系統,XSEDE匯聚了超算、數據分析、數據存儲等資源,可支持用戶共享計算資源和數據,支持任務通過高性能計算機網絡快速訪問和檢索數據,為多個領域的科學發現提供有力支持。歐洲網格基礎設施(EGI)項目旨在擴展歐洲在計算、存儲、數據等方面的重要聯合服務能力,使用網格計算技術將全歐洲廣域分布的高性能、高吞吐計算資源聚合起來,實現科學數據共享,可為海量的數據以及計算資源提供統一的訪問。EGI將不同歐洲國家的超算中心連接起來,以支持多學科聯合的國際研究。EGI的子項目OneData是一個全球數據管理系統,支持從個人數據管理到數據密集型科學計算的各種用例,用戶可以使用全球計算中心和存儲提供商支持的全球數據存儲來訪問、存儲、處理和發布數據。我國在國家高技術研究發展計劃(863計劃)的支持下,依托國產高性能計算機建立了中國國家網格(CNGRID)。CNGRID由8個主節點連接而成,形成了18萬億次的計算能力,在當時全世界的網格環境中排名第二?!笆晃濉逼陂g,我國進一步發展了CNGRID,其計算能力達到3 000萬億次以上,有效支持了通用科學、工業仿真和生物醫學等應用,促進了科學技術的發展。北京航空航天大學針對國家高性能計算環境中廣域分散存儲資源的聚合需求以及大型計算應用對跨域全局虛擬數據空間的實際需要,研發了一個可運行于國家高性能計算環境的廣域虛擬數據空間(global virtual data space,GVDS)軟件系統,解決了長期困擾我國高性能計算環境發展的廣域存儲管理和訪問的瓶頸問題。
作為跨域數據處理的典型平臺,EGI、XSEDE、CNGRID等廣域高性能計算環境正發展成進行大規模數據存儲和處理的重要基礎設施,高效地利用廣域高性能計算環境支撐大數據的存儲管理以及高效處理仍然面臨如下挑戰。
● 挑戰1:如何形成全局數據空間,進而支持廣域分散數據的存儲、管理、傳輸、訪問的統一管理。
● 挑戰2:如何實現廣域環境中數據與計算任務的協同調度,以優化多中心存儲與計算資源的利用,支撐海量數據的跨中心高效處理。
針對挑戰1,筆者所在團隊已經研發了GVDS系統,該系統可聚合廣域分散存儲資源形成全局數據空間,以支持數據的統一管理和高效傳輸。針對挑戰2,本文基于GVDS系統,研究了存儲與計算協同調度策略,并實現了一個存算協同調度系統,該系統綜合考慮數據布局、存算資源狀態、容量限制等多方面因素,可合理選擇任務和數據的優化調度策略,實現在廣域范圍內高效的計算任務分配和數據布局,以提高環境資源利用率,提升應用計算效率。
本文的主要貢獻包括以下3個方面:
● 研究并實現了一套包含存算協同調度在內的調度方法,以支撐高性能大數據的快速分析處理;
● 設計實現了一個基于虛擬數據空間的存算協同調度系統,可優化廣域環境中的全局資源利用,支持海量數據跨域存儲管理與高效處理;
● 系統已部署于國家高性能計算環境中廣域分散的5個節點,并形成測試床,驗證了分子對接、跨域目標協同識別等典型大型數據處理類應用。
2 研究現狀
現代科學計算和實驗已變得十分復雜,工程仿真、高能物理、氣象領域、基因測序研究等產生的數據量可達數百TB,生產生活中的移動互聯網、社交媒體等也每天產生海量的數據。采用分布式資源為大數據處理提供所需的計算能力和存儲能力逐漸成為大數據處理的重要選擇,但是,如何充分利用這些海量資源、發揮存儲與計算資源的綜合效用仍然是一個亟待解決的問題。存儲與計算的協同調度是解決該問題的重要方法之一。通過感知資源分布、數據分布、計算需求等,依據數據訪問特征和計算特征來優化數據布局和任務布局,可有效地提高跨域存儲與計算資源的利用率以及海量數據的處理效率。
參考文獻設計了Condor-G系統,該系統是面向網格的計算資源調度系統,采用Globus和Condor使用戶能夠統一管理多個域內的資源,提供作業管理、資源選擇、安全性和容錯等能力,并提供了管理網格資源的通用接口。針對大規模數據的訪問效率低、可靠性差的問題,Kosar T等人開發了Stork數據管理系統,通過感知數據使用特征來進行合理的數據布局和調度,以實現對廣域環境中大規模數據的高效訪問,同時利用參考文獻中Condor-G系統提供的管理網格計算資源通用接口,實現了對廣域環境中存算資源的協同管理,提高了對數據密集型應用的計算效率。
Zhao L P等人基于超圖分區的技術對廣域環境中的存儲、計算、網絡資源進行協同調度,減少了廣域環境中數據的傳輸,并且最大限度地縮短了任務完成時間,提升了廣域分布式計算環境中的數據中心整體性能。參考文獻使用任務竊取技術使閑置的調度器通過從超載的調度器中調度任務來平衡負載,實現了動態負載均衡的計算目標。參考文獻以數據訪問熱度為核心因素,在滿足創建數據副本的條件下進行數據副本的優化布局,進而系統通過感知數據副本的布局信息進行任務的調度,提高了數據處理效率,縮短了任務完成時間。參考文獻提出了一種雙邊匹配算法,將任務與資源進行多種屬性間的匹配,之后將任務調度到匹配度高的資源,減少了調度過程中的開銷。參考文獻則以最小化數據傳輸為目標進行任務的調度,以減少數據傳輸的開銷。參考文獻提出了一種自適應調度算法,將任務分配給一定時間內閑置的資源,避免了關鍵任務的低效分配,同時通過一種消息超前發送的方法節省通信時間,并進一步提高整體性能。參考文獻將子任務按不同規則分為任務組,任務組或單個任務被映射到不同的節點,但缺乏對任務所需存儲、計算資源的考慮,導致任務和資源的相關性低,例如將計算密集的任務映射到存儲能力強的節點,或者將數據密集的任務映射到計算能力強的節點,最終造成任務排隊時間過長或者節點資源利用不充分等問題。
綜上所述,對廣域環境中的存儲與計算進行協同調度是優化資源利用并提升計算效率的有效方法,但廣域高性能計算中存儲資源的訪問效率仍然較低,存儲與計算的協同性較差,難以高效應對廣域高性能計算環境中復雜多變的海量數據處理需求,海量數據的跨域高效處理需要高效的存算協同調度技術。
3 廣域存算協同調度系統
本文基于GVDS研發了跨域多中心存算協同調度技術和系統,可綜合利用廣域環境中的存儲和計算資源,支持數據與計算任務的統一調度,滿足大數據的高效分析處理需求。針對不同的應用場景,在框架中實現了3種不同策略的調度方法:存算協同調度方法以優化系統中的全局資源利用、最小化任務執行時間為目標,實現了任務需求與資源能力的高效匹配,可合理地進行任務與數據的聯合調度,優化全局資源利用,降低任務執行時間;基于負載均衡策略的調度方法以優化系統整體計算資源利用、縮短任務響應時間為目標進行調度,實現了較優的系統平均資源利用和任務完成時間;基于數據局部性的調度方法以最小化全局數據傳輸為目標進行調度,充分減少了任務執行過程中的全局數據傳輸開銷,進而縮短了系統中的任務完成時間?;诒疚难芯康恼{度策略,以及GVDS提供的全局虛擬數據空間,進一步實現了一個存算協同調度系統,將該系統與國家高性能計算環境已有全局作業調度系統對接,形成多級調度系統,綜合利用廣域環境存儲和計算資源,優化全局資源利用,提高計算效率,支撐大數據的高效處理。
3.1 廣域虛擬數據空間系統
針對廣域高性能計算環境中存儲與計算的協同性差導致的應用計算效率低的問題,筆者團隊前期研發了高性能計算虛擬數據空間系統GVDS[10-11]。GVDS可支持對跨域分散自治資源的統一管理,為海量數據提供高性能、高可靠性存儲,為廣域環境中的海量數據提供全局數據視圖,可有效支撐應用以統一訪問模式高效訪問廣域分散異構的存儲資源,實現廣域環境中分布數據的跨域共享和協同處理,以支撐跨多超算中心協同處理的應用運行模式。目前,GVDS已在國家高性能計算環境中部署了測試床,并集成到中國國家網格門戶網站的“聚合資源運行支撐環境”AROSE平臺中,用戶可通過3種方式登錄GVDS,并使用網格的計算資源,如圖1所示。
圖1???GVDS與國家高性能計算環境對接
GVDS可結合網格環境提供的全局作業調度,綜合利用廣域環境下的存儲和計算資源,為跨域多中心存算協同調度提供基礎,進而優化全局資源利用,滿足海量數據跨域高效處理的需求,如圖2所示。
圖2???GVDS對應用計算模式的支撐
3.2 存算協同調度策略
為了充分發揮跨域存儲和計算資源的效用,滿足海量數據高效處理的需求,本文提出了一種數據與計算感知的存算協同調度策略。存算協同調度指綜合考慮計算任務和與數據相關的多種因素,如存儲和計算資源負載、數據布局情況、網絡帶寬負載等,以縮短任務完成時間為目標,制定數據和計算任務協同調度的最優策略。傳統的調度算法一般從負載均衡的角度和提高數據局部性的角度考慮,本文提出的存算協同調度方法則從任務、數據和資源的關系的角度出發,以資源與任務的相關性為基礎,結合任務的優先級、數據的訪問熱度、資源的負載情況,得出任務和數據的最佳調度策略,優化任務的執行時間,以提高廣域高性能計算環境中的資源利用,解決任務與資源不匹配造成的任務執行時間長的問題。
基于存算協同的調度執行過程如圖3所示。用戶提交任務到存算協同調度系統,調度計劃器通過調度決策產生任務調度計劃和數據調度計劃,調度計劃會被發送到調度執行器;調度執行器調用底層作業管理系統和存儲管理系統來執行任務調度與數據調度。關鍵步驟包括調度決策和執行兩個階段,其中,調度決策階段將計算任務與資源的相關性作為調度的決策依據,結合任務的優先級、數據副本布局,對任務和數據進行合理的協同調度;調度執行階段通過Slurm的計算管理器和GVDS的存儲管理器執行任務和數據的調度,同時依據數據的訪問熱度反饋,優化數據副本布局,以降低后續任務執行時的數據傳輸開銷,提高計算效率。
圖3???存算協同調度的執行過程
3.2.1 調度決策階段
(1)存算協同調度
在廣域高性能計算環境中,由于任務的復雜性、存儲和計算資源的多樣性,系統需要合理匹配任務和資源,以產生合理的調度策略,縮短任務處理時間,提高系統吞吐量。本文提出了一種基于任務與資源相關性的協同調度方法,通過余弦相似性計算任務向量與資源能力向量的關系,選擇相關性最大的任務和資源,依據節點的負載情況,協同調度任務與數據。
設Q是二元向量,表示任務q所需的計算資源和存儲資源,如下所示:
其中,Cq是處理器核數,表示所需的計算資源;Sq是運行任務q所需的存儲空間大小。
設P是二元向量,表示節點p的計算能力和存儲能力,如下所示:
其中,CPUp表示節點p擁有的處理器核數,即節點p的計算能力;sizep表示節點p的存儲空間總量。
用Rel(q,p)表示任務q和節點p的資源相關性,Rel(q,p)的表示如下:
Rel(q,p)采用余弦函數來計算Q和P的相關性,值越大,任務q與節點p的資源相關性越大,即如果將任務與數據調度至該節點,預期可以縮短任務處理時間。
在實際使用場景中,如果任務所需數據距離目標節點較遠,可能會出現任務等待數據傳輸的情況,這時候會更加傾向于優先處理可訪問本地數據的任務,即數據傳輸距離會影響任務的優先級。因此,本文引入了任務的優先級,并將其作為任務與數據協同調度的因素。設任務q的優先級為Priq,如下所示:
設置調度決策評分Scoreq,p表示協同調度任務與數據的分值,如式(5)所示,采用優先級Priq對相關性Rel(q,p)進行加權,該式表示任務與資源相關性越大且任務的優先級越高,任務與數據被協同調度的概率就越高,從而優化資源利用并提高任務的計算效率:
(2)任務執行前的數據副本放置
在廣域高性能計算環境中,受限的網絡帶寬導致數據傳輸成本很高,對于任務來說,考慮數據局部性,即將計算任務分配到數據所在的節點是合適的選擇,但是對于含有大量計算任務的應用或者被頻繁訪問的數據來說,如果僅考慮數據局部性會導致某一節點的計算負載過高、網絡負載過高、排隊時間過長等,因此,在資源負載較低或者被頻繁訪問的節點建立數據副本是合適的選擇。由Priq可知,數據局部性越好,任務被調度的優先級越高,因此本文的調度計劃器也可基于數據訪問熱度,在任務執行階段進行數據副本布局,即在任務調度階段,依據計算資源的負載情況,預先調度數據到指定節點,以利用數據局部性,提升計算效率。
數據的訪問熱度由數據最近訪問的時間間隔、平均訪問時間間隔決定。定義平均訪問時間間隔為,它反映數據被訪問的頻率;最近訪問的時間間隔為(li-li-1),指調度策略產生時的數據訪問時間li與上次訪問該數據的時間的間隔,反映數據的訪問熱度趨勢,(li-li-1)越小,表明數據正逐漸成為訪問熱點。設數據i的訪問熱度為Hi,Ki表示訪問數據i占所有數據的比例,則Hi的計算式如下:
節點u的負載U包括節點的存儲資源負載和計算資源負載,如式(7)所示。其中, UC表示可用的計算資源比例,US表示可用的存儲資源比例。
本地節點和遠程節點會根據節點的負載情況以及數據的訪問熱度判斷是否建立數據副本。當負載情況及數據的訪問熱度符合設定的閾值范圍時,即在節點創建數據副本;反之,則不建立。
3.2.2 調度執行階段
(1)執行調度策略
在階段1,調度計劃器負責產生廣域環境中任務需求與資源能力匹配的調度策略,調度策略被發送給調度執行器,調度執行器通過調用底層作業管理系統和存儲管理系統,實際完成數據和計算任務的協同調度。計算管理器基于Slurm實現。Slurm是一個用于大型計算節點集群的高度可伸縮和容錯的集群管理器和作業調度系統,提供對計算資源的監視,它將作業映射到基本的計算資源,可以實現計算任務的高效調度;存儲管理器基于GVDS實現,用于確保數據在廣域范圍內的統一管理、訪問和傳輸。
(2)任務完成后的數據副本放置修正
在計算任務完成后,存算資源監控器會依據收集到的本次計算所用數據的訪問熱度,綜合考慮節點實際的計算能力、負載情況等來修正數據副本的優化布局,以降低后續任務執行時的數據傳輸開銷,提高計算效率。令第i份數據的平均訪問時間間隔為Ti,它表示數據的訪問頻度,Ti越小,訪問越頻繁;Ki表示第i份數據被訪問的次數占所有數據被訪問次數的比例。第i份數據的訪問熱度Fi的計算式如下:
3.3 存算協同調度系統
本文基于GVDS提供的全局統一資源管理和訪問能力,以及提出的存算協同調度框架和策略,實現了一個跨域存算協同調度系統。系統的調度策略除了本文提出的存算協同調度策略外,還支持負載均衡調度、數據局部性調度,以支持高性能計算環境中的跨域任務與數據調度。
基于負載均衡策略的調度算法如圖4所示。通過感知計算資源的全局負載進行任務調度,盡可能將計算任務均衡分配到各中心,以優化資源整體利用率,縮短任務完成時間。任務管理器將任務劃分為一系列子任務,資源管理器實時檢測各超算中心的計算資源負載情況,并定時將各節點的計算資源負載情況反饋到存算協同調度系統中的任務分配決策器,任務分配決策器依據各節點計算資源的空閑程度,將任務管理器劃分的一系列子任務分發到不同的計算節點,以優化系統整體的計算任務分配情況。
圖4???負載均衡調度策略
基于數據局部性策略的調度方法如圖5所示。任務管理器將用戶提交的任務劃分為一系列子任務,計算時資源管理器檢測各超算中心的數據分布情況,并將各節點的數據分布情況反饋到存算協同調度系統中的任務分配決策器,通過分析系統中各子任務的類型及對數據的依賴關系,任務分配決策器將不同的子任務劃分到不同的分組中,以最大化數據局部性,降低數據傳輸開銷。
圖5???數據局部性調度策略
存算協同調度系統的總體架構如圖6所示。該系統基于GVDS研發,目前已對接Slurm作業管理器,對負載共享設施(load sharing facility,LSF)、便攜式批處理系統(portable batch system,PBS)等作業管理系統的支持也在逐步完善。存算協同調度系統對底層存算資源的狀態進行監控,根據選擇的調度方法產生相應的調度策略,調度策略被發布至作業管理系統和存儲管理系統進行計算任務和數據的調度。
圖6???存算協同調度的系統架構
存算協同調度系統的Web界面如圖7所示。在調度申請框中,可以選擇應用的名稱、任務名稱、程序執行路徑,CPU核心數量用于指定每個子任務占用的CPU核數,內存容量用于指定每個子任務占用的內存大小,子任務數量用于將任務劃分成指定數量的子任務,調度算法可以根據不同場景選擇不同的調度策略,執行參數指執行程序可選的參數,用戶任務信息用于查看任務運行結果(任務名稱、運行狀態、開始時間、結束時間)。在任務執行狀態框中,可以看到每個子任務運行所在的節點。計算資源負載框顯示的是系統以輪詢的方式收集的各節點的計算資源負載情況,以便系統對計算資源進行管理。
圖7???存算協同調度系統
4 應用驗證
目前,GVDS已在廣域分布的5個國家級超算中心部署并形成測試床,本文提出的系統已在測試床上部署,并開展了分子對接應用和跨域目標協同識別應用的驗證,從而證明本文提出的系統對大數據高效處理的支撐。
4.1 實驗環境
系統部署于中國科學院網絡信息中心(以下簡稱中科院網絡信息中心)、國家超級計算濟南中心(以下簡稱國家超算濟南中心)、國家超級計算廣州中心(以下簡稱國家超算廣州中心)、國家超級計算長沙中心(以下簡稱國家超算長沙中心)、上海超級計算中心5個國家級超算中心的測試節點,測試環境見表1。
4.2 應用驗證
本文基于生物信息學的分子對接應用、跨域目標協同識別應用等典型大型應用,對筆者團隊研發的存算協同調度系統開展了應用驗證,以研究系統對應用計算效率的提升情況。分子對接是通過受體的特征以及受體和藥物分子之間的相互作用的方式來進行藥物設計的方法。分子對接應用的傳統執行方式是在單個數據中心進行集中式的計算,這導致資源利用不均、計算效率低,而本文的存算協同調度系統可以將計算任務及數據進行合理的分配,優化資源利用率,提高應用計算效率。跨域目標協同識別應用需要對大量視頻幀進行目標檢測,搜尋一個目標時往往需要多個中心的數據,其計算量和數據量都較大。
首先,將分子對接應用基于存算協同調度系統提交運行,以驗證系統的存算調度系統功能,實驗如圖8所示。在調度申請階段,將分子對接應用分成100個子任務,每個子任務分配一個CPU核心,經過系統調度之后,分子對接應用的任務被分配到3個節點執行(圖8中任務執行狀態框),從圖8中計算資源的負載情況框中可以看到各中心的負載情況。
圖8???存算協同調度系統進行分子對接實驗
其次,分子對接應用和跨域目標識別應用分別與兩個應用的單節點運行模式相比,分子對接應用的任務被存算協同調度分配到3個節點執行,跨域目標協同識別應用被存算協同調度分配到5個節點執行,執行結果如圖9和圖10所示。
圖9???分子對接應用實驗
圖10???跨域目標協同識別應用實驗
在測試結果中,分子對接應用基于存算協同調度系統運行的效率達到了傳統運行模式的3.07倍,跨域目標協同識別應用運行的效率達到了傳統運行模式的4.03倍,表明存算協同調度系統可將計算任務及數據進行合理的分配,有效地提高應用的計算效率。
最后,為了對比本文提出的存算協同調度系統提供的3種調度策略的性能,在分子對接實驗中進行了單節點運行、存算協同調度策略、負載均衡調度策略、數據局部性調度策略的對比,將應用分別劃分為100、200、300、400、500個子任務,分別測量3種調度方法下的任務完成時間,實驗結果如圖11所示。
圖11???4種調度策略性能對比
在圖11中,當任務的計算量較小時(如圖11中子任務數量為100~200個),各節點的計算資源狀態相對空閑,任務的數據遷移時間是系統的性能瓶頸,此時,考慮了數據遷移優化的數據局部性調度策略和存算協同調度策略擁有較好的性能。這是因為存算協同調度策略在產生調度策略時,通過綜合分析數據局部性和計算資源的負載情況,將任務與數據協同調度到合適的節點,在減少廣域網環境中數據遷移開銷的同時,避免了計算任務排隊過長的情況,因此性能較優;數據局部性調度策略會將計算任務盡可能分配到數據所在的節點,避免了大量的廣域網數據傳輸,優化了數據遷移過程,相對空閑的計算資源可以及時處理分配的計算任務,從而縮短任務完成時間,但隨著計算量的增大,數據所在的節點會逐漸成為系統的瓶頸,使得任務完成時間延長,因此性能會逐漸下降;而負載均衡調度策略在計算資源相對空閑的情況下,為了均衡廣域環境中各節點的負載,會產生不必要的數據遷移,出現計算任務等待數據遷移的情況,因此性能相對較差。隨著任務的計算量增大(如圖11中子任務數量為300~500個),計算資源逐漸成為系統的性能瓶頸,此時考慮了資源優化利用的存算協同調度策略和負載均衡調度策略擁有較好的性能,存算協同調度策略擁有最好的性能,負載均衡調度策略的性能次之,數據局部性調度策略的性能較差。這是因為存算協同調度策略會基于數據局部性選擇相關性最大的任務和資源,依據節點的負載情況協同調度任務與數據,優化了廣域高性能計算環境中的資源利用,因此性能最優;而負載均衡調度策略會將計算任務盡可能均衡地分配到各節點,但未充分考慮任務及其所需的數據與超算中心內的計算和存儲資源狀態不匹配造成的任務分配不合理的問題,因此性能次之;而數據局部性調度策略在計算任務的計算量較大的情況下,會出現數據所在節點的計算任務 排隊過長的情況,從而導致任務完成時間大幅延長。
總體上,存算協同調度策略在各種子任務劃分下,性能均優于其他調度方法。單節點運行的完成時間會隨著任務數量的增加而大幅延長,尤其在任務數量超過300個時,由于節點負載增加,完成時間快速延長。其他3種調度策略則隨著子任務數的變化而變化平緩,說明3種方法都能較好地匹配數據與計算作業。存算協同調度策略的最好情況是子任務數為500個時,完成時間僅為單節點運行完成時間的20.76%,最壞情況是子任務數為300個時,完成時間為單節點運行完成時間的52.54%;負載均衡調度策略的最好情況是子任務數為400個時,完成時間為單節點運行完成時間的25.42%,最壞情況是子任務數為100個時,完成時間為單節點運行完成時間的74.52%;數據局部性調度策略的最好情況是子任務數為400個時,完成時間為單節點運行完成時間的36.92%,最壞情況是子任務數為100個時,完成時間為單節點運行完成時間的為105.7%。
綜合上述驗證實驗可知,存算協同調度策略可以通過合理的任務與數據調度,優化多中心存儲與計算資源的利用,既避免了計算資源成為系統的瓶頸,又避免了大量數據的遷移開銷,使得任務完成時間最短。
5 結束語
本文針對海量數據的高效處理需求,基于筆者團隊研發的高性能虛擬數據空間系統,基于負載均衡調度、數據局部性調度、存算協同調度3種調度方法研發了存算協同調度系統。該系統可以統一管理廣域環境中的存算資源,進行存算協同調度,優化廣域環境中的存算資源利用,支持大數據的存儲管理與高效分析處理。
目前,筆者團隊研發的存算協同調度系統已經和GVDS一起實驗性地部署于國家高性能計算環境中的中科院網絡信息中心、上海超級計算中心、國家超算濟南中心、國家超算長沙中心、國家超算廣州中心5個超算中心的測試節點,并通過分子對接應用、跨域目標協同識別應用驗證了系統的有效性和高效性,初步建成了跨域海量數據處理的實驗平臺。
筆者團隊后續將在存算協同調度策略對高性能計算環境的資源感知方面開展工作,以進一步提高存算協同調度策略的調度精度和準確性,并集成更多的調度策略,以擴展存算協同調度系統的應用場景和靈活性,以優化國家高性能計算環境的資源利用,并為海量數據的跨域高效協同處理提供支撐。
作者簡介
張晨浩(1997-),男,北京航空航天大學計算機學院博士生,主要研究方向為高性能計算、分布式存儲等。
肖利民(1970-),男,博士,北京航空航天大學計算機學院教授、博士生導師,計算機科學技術系主任,計算機系統結構研究所副所長,中國計算機學會(CCF)大數據專家委員會委員、高性能計算專業委員會常務委員、容錯計算專業委員會委員,中國電子學會云計算專家委員會委員,主要研究方向為計算機體系結構、大數據存儲、高性能計算等。曾獲國家科技進步獎二等獎4項、省部級科技進步獎一等獎4項及其他省部級獎項5項。發表SCI/EI論文230多篇,申請發明專利100多項,其中授權發明專利88項。
秦廣軍(1977-),男,博士,北京聯合大學智慧城市學院講師,CCF會員,主要研究方向為高性能計算、存儲系統、大數據和機器學習等。作為項目骨干參與多項國家863計劃項目、國家重點研發計劃項目、國家自然科學基金面上項目、北京市自然科學基金面上項目等。
宋堯(1994-),男,北京航空航天大學計算機學院博士生,主要研究方向為高性能計算、分布式存儲、分布式調度系統、存算聯動調度等。
蔣世軒(1999-),男,北京航空航天大學計算機學院碩士生,主要研究方向為分布式存儲、存算聯動調度等。
王繼業(1964-),男,博士,國家電網有限公司大數據中心教授級高級工程師,主要從事電力信息化、能源互聯網、大數據與人工智能等方面的研究工作。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的面向大数据处理应用的广域存算协同调度系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 要学会通过错误查找解决方案尤其是错误代码
- 下一篇: docker 上关于hyper-v和ws