OS2ATC 2021:开源协作,和而不同
12月26日由中科院軟件所主辦,清華大學(xué)、北京大學(xué)以及鑒釋科技承辦的第九屆開源操作系統(tǒng)年度技術(shù)會議(OS2ATC)正式拉開序幕,百余位重量嘉賓蒞臨現(xiàn)場,圍繞大會主題“開源協(xié)作,和而不同”共同探討操作系統(tǒng)開源生態(tài)和技術(shù)前沿。
此次大會以線上線下結(jié)合的模式舉辦,共吸引了超過500名業(yè)內(nèi)人士參加。會議當(dāng)天上午,來自清華大學(xué)、上海交通大學(xué)、香港大學(xué)等國內(nèi)外高等學(xué)府的教授坐陣主會場及圓桌論壇,向大家傳遞領(lǐng)域內(nèi)最新科技進(jìn)展,下午在北京、上海、深圳三地舉行分論壇研討會,更有華為、阿里云、騰訊云、螞蟻集團(tuán)等知名科技企業(yè)的技術(shù)專家圍繞往年“內(nèi)核技術(shù)”、“應(yīng)用生態(tài)”、“云原生”、“虛擬化技術(shù)”、“編程技術(shù)”等主題討論,以及今年特別增加的“機(jī)密計(jì)算“、”車載OS“、“硬件”這三大熱門的方向展開演講。八大分會場將同時(shí)為大家?guī)ジ髯灾鞴ゼ夹g(shù)的主題演講,為操作系統(tǒng)開源協(xié)作建言獻(xiàn)策。
在北京的主會場上,本次會議主席,來自中科院軟件所的副總工、智能軟件研究中心主任武延軍老師致開場詞,預(yù)祝大會順利進(jìn)行。
隨后來自香港大學(xué)、清華大學(xué)、上海交大、阿里、騰訊等在操作系統(tǒng)領(lǐng)域卓有建樹的專家學(xué)者帶來的精彩的技術(shù)報(bào)告:
香港大學(xué)助理教授崔鶴鳴帶來了主題為《AI大模型并行訓(xùn)練系統(tǒng)平臺》的演講內(nèi)容,其內(nèi)容將發(fā)表在ASPLOS2022大會上。在演講中,他介紹了AI大模型三維分割中的流水線并行與大模型的動態(tài)性兩大問題。針對流水線并行問題,崔鶴鳴老師的研發(fā)團(tuán)隊(duì)聯(lián)合華為技術(shù)專家與中科大老師研發(fā)的系統(tǒng),通過在底層進(jìn)行虛擬化的CPU內(nèi)存管理,合理的通過一系列算法對default、Swap、recompute、Migration四大狀態(tài)進(jìn)行分配,從而實(shí)現(xiàn)了在整個(gè)流水線高吞吐量的同時(shí),又不會影響CPU閃存的工作狀態(tài)。
同時(shí)崔老師也介紹了其團(tuán)隊(duì)后續(xù)的研究計(jì)劃,他將帶領(lǐng)團(tuán)隊(duì)深入研究AI大模型的動態(tài)性問題,通過在三維并行之外添加全新的超網(wǎng)子網(wǎng)并行維度,實(shí)現(xiàn)更具性能的AI大模型訓(xùn)練平臺。
在接下來的演講中,阿里云智能技術(shù)軟件部操作系統(tǒng)團(tuán)隊(duì)負(fù)責(zé)人馬濤發(fā)表了《云計(jì)算與操作系統(tǒng)產(chǎn)業(yè)的發(fā)展》主題演講。他講述了阿里云10年的云計(jì)算發(fā)展實(shí)踐之路和云原生的發(fā)展方向:從開源CentOS到阿里OS再到去IOE浪潮,從技術(shù)的內(nèi)部滿足到后來的產(chǎn)品化輸出,以及近兩年阿里云致力于的開源社區(qū)與生態(tài)的構(gòu)建。
在演講中馬濤總結(jié)了未來操作系統(tǒng)產(chǎn)業(yè)的五大發(fā)展趨勢與機(jī)遇,即:
- 云計(jì)算時(shí)代重塑計(jì)算形態(tài)需要新的運(yùn)行環(huán)境
- 后摩爾定律時(shí)代需要進(jìn)一步提升計(jì)算效率
- 海量數(shù)據(jù)爆炸之下遇到的內(nèi)存墻問題
- 數(shù)據(jù)安全和隱私保護(hù)推動新的計(jì)算技術(shù)
- 下個(gè)十年操作系統(tǒng)產(chǎn)業(yè)發(fā)展依然要以開源社區(qū)為中心
繼馬濤在演講中提到大數(shù)據(jù)時(shí)代的內(nèi)存問題,下一位演講嘉賓清華大學(xué)陸游游副教授分享了《內(nèi)存系統(tǒng)一致性的新探索》主題演講。針對閃存系統(tǒng)的崩潰一致性問題,陸游游老師的研發(fā)團(tuán)隊(duì)針對存儲系統(tǒng)中的ordering與transaction,通過硬件的方式做出改變與嘗試。陸老師介紹的相關(guān)內(nèi)容發(fā)表在OSDI2021等國際會議上。
他表示:硬件的性能越來越快,但是很多時(shí)候由于軟件功能的限制,我們并不能將硬件的性能發(fā)揮完全。比如說想要通過傳統(tǒng)軟件實(shí)現(xiàn)通過一個(gè)字節(jié)訪問接口訪問PRM是很麻煩的,但通過硬件就比較容易實(shí)現(xiàn)。我們所做的便是在軟硬件接口上做很小的改變,利用硬件特性擴(kuò)展的一點(diǎn)點(diǎn)接口,就可以在軟件層面上實(shí)現(xiàn)很大的改變。
接下來,上海交通大學(xué)的糜澤羽帶來了主題為《TwinVisor:Hardware-isolated Confidential Virtual Machines for ARM》的演講,糜老師介紹的相關(guān)內(nèi)容發(fā)表在OSDI2021等國際會議上。隨著有越來越多的公司和個(gè)人將數(shù)據(jù)托管于云上,來自云上的攻擊層出不窮,如何保護(hù)用戶在云上的數(shù)據(jù)安全成為一個(gè)很大的命題。在演講中,糜澤羽老師介紹了利用TrustZone技術(shù)為云用戶提供云虛擬機(jī)安全方案的系統(tǒng)Twinvisor。通過復(fù)用非安全世界、安全世界之外非常成熟的KVMhypervisor,統(tǒng)一管理物理機(jī)器上的所有資源以及NVEM,進(jìn)行統(tǒng)一調(diào)度分配,從而保障安全。
?
在演講中,糜澤羽老師以TrustZone靜態(tài)硬件設(shè)計(jì)假設(shè)之上進(jìn)行動態(tài)資源轉(zhuǎn)移的場景案例進(jìn)行了進(jìn)一步說明。他表示:利用Linux現(xiàn)有的CMA,我們可以實(shí)現(xiàn)動態(tài)的內(nèi)存管理模式,即不用的時(shí)候內(nèi)存可以為Linux其他模塊所使用,需要使用時(shí)CMA可以大面積管理連續(xù)內(nèi)存。利用這一機(jī)制,我們實(shí)現(xiàn)了兩個(gè)世界之間協(xié)同的內(nèi)存管理解決方案。
騰訊云異構(gòu)計(jì)算研發(fā)負(fù)責(zé)人宋吉科為與會嘉賓分享了《騰訊云異構(gòu)計(jì)算技術(shù)的演進(jìn)之路》的主題演講。隨著計(jì)算異構(gòu)化的趨勢愈發(fā)明顯,對于GPU產(chǎn)品而言,單一業(yè)務(wù)無法保障利用率,而多業(yè)務(wù)又會存在顯存隔離、算力隔離、故障隔離的三大維度問題。所以業(yè)界需要一個(gè)能夠同時(shí)滿足三大隔離行要求,同時(shí)不存在明顯短板的GPU共享解決方案。騰訊云所研發(fā)的qGPU通過在Kernel space將UMD和KMD之間的通信進(jìn)行完整的攔截和控制,實(shí)習(xí)了顯存隔離、算力隔離、 故障隔離三大隔離性要求。同時(shí)qGPU支持best-effort、fixed-share與burst-share三大模式以滿足各類業(yè)務(wù)場景下的不同需求。
同時(shí)在演講中宋吉科還深入地介紹了騰訊內(nèi)部虛擬team云帆團(tuán)隊(duì)推出的AI加速引擎TACO。該產(chǎn)品由用戶態(tài)協(xié)議棧HARP、分布式訓(xùn)練框架LightCC以及增強(qiáng)版TTensorflow三大組件組成,實(shí)現(xiàn)了分布式訓(xùn)練加速以及推理引擎加速的功能。
高級首席工程師林曉東先生介紹了面向機(jī)器學(xué)習(xí)加速的新的x86硬件擴(kuò)展:AMX(高級矩陣擴(kuò)展)。AMX設(shè)計(jì)主要用于對矩陣進(jìn)行操作,目的是加速機(jī)器學(xué)習(xí)工作負(fù)載。矩陣乘法是神經(jīng)元網(wǎng)絡(luò)的關(guān)鍵操作,與VNNI(矢量神經(jīng)元網(wǎng)絡(luò)指令)相比,AMX為矩陣乘法提供了8倍的FLOPS。伴隨著顯著的性能提升,AMX引入了一個(gè)新的寄存器文件,有8個(gè)1KB的架構(gòu)寄存器。大量的寄存器給操作系統(tǒng)帶的進(jìn)程/線程上下文切換等,特別是進(jìn)程/線程狀態(tài)管理,帶來了挑戰(zhàn),為此需要采用惰性切換等技術(shù)確保進(jìn)程/線程管理的高效性。最后還具體介紹了AMX在TensorFlow和PyTorch等DL框架中的應(yīng)用,以及Linux中的進(jìn)程/線程狀態(tài)管理的方法。
在時(shí)代浪潮的推動下,作為基礎(chǔ)軟件的三大件之一,操作系統(tǒng)的創(chuàng)新升級與開源協(xié)作勢在必行。而每年的OS2ATC對于開發(fā)者而言,則是一個(gè)開拓技術(shù)事業(yè),提升行業(yè)認(rèn)知的良好窗口。
總結(jié)
以上是生活随笔為你收集整理的OS2ATC 2021:开源协作,和而不同的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 匿名提问:rm -rf了怎么办?
- 下一篇: 深信服何朝曦:托管云为用户上云提供第三种