针对这一行业痛点,创新工场投资的潞晨科技发布了大规模并行AI训练系统——“夸父”(Colossal-AI) ,通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式,旨在打造一个
前沿AI模型越來越大,無論是對于企業還是個人,AI模型的訓練成本都越來越高。即使花巨資使用超級計算機集群,聘請專家,也難以實現AI模型的高效訓練。
針對這一行業痛點,創新工場投資的潞晨科技發布了大規模并行AI訓練系統——“夸父”(Colossal-AI)?,通過多維并行、大規模優化器、自適應任務調度、消除冗余內存、降低能量損耗等方式,旨在打造一個高效的分布式人工智能訓練系統,作為深度學習框架的內核,幫助用戶在最大化提升人工智能訓練效率的同時最小化訓練成本。
潞晨科技首創了“6維并行技術”,并且提出了將“系統優化”與“上層框架”和“下層硬件”解耦出來,形成一個獨立的層,實現用戶零成本的性能最大化方案。“夸父”是世界上并行維度最多的AI訓練系統,相對于目前業界主流的英偉達Megatron,訓練過程的批大小提高了13.7倍,序列長度提升3倍,內存利用率提升1.76倍,加速比提高2.32倍。目前,夸父AI為搶先體驗beta版,正式版將在近期發布。
創新工場執行董事兼前沿科技基金總經理任博冰表示,在模型復雜度和算力需求快速上升的時代,潞晨科技開源的大規模并行AI訓練系統“夸父”具有很高的價值,在性能上遠好于現有模型,剛剛上線就在GitHub Trending Python排名世界第一。創新工場前沿科技基金專注于與科學家一起創業,通過技術和服務賦能創業者,幫助他們做出世界級的科技公司。我們相信在尤洋團隊的帶領下,潞晨科技會持續邁向AI訓練優化的高峰,把技術轉化為成果,進一步落地到場景,成為產學研緊密結合的卓越典范。
開源地址:
https://github.com/hpcaitech/ColossalAI
飛漲的模型參數和訓練成本
近年來,隨著AI模型從AlexNet, ResNet, AlphaGo發展到BERT、GPT、MoE …,AI能力不斷提升的一個顯著特征是模型參數的爆發式增長,這使得訓練模型的成本也急劇上升。目前最大的AI模型智源悟道2.0參數量達到1.75萬億,而僅僅是訓練1750億參數的GPT-3,已經需要一個英偉達V100 GPU計算約335年。
模型參數的爆發式增長
由于單臺機器的能力已遠遠無法滿足日益增長的AI訓練需求,科技巨頭們紛紛部署了自己的超級計算機集群,如谷歌的TPU Pod、英偉達的SuperPOD等,希望通過將訓練過程擴展到上千臺機器,使用分布式計算提高模型的訓練效率。但即便是超級計算機,也面臨著當硬件堆砌到達一定數量后,效率無法進一步提升的瓶頸,浪費了大量計算資源。而分布式并行也與單機情況差異巨大,通常需要計算機系統和體系結構相關的專業人員,這進一步推高了訓練成本。
超級計算機集群
夸父AI系統
夸父AI系統最終結構
夸父AI系統將作為深度學習框架的內核,構建起AI應用與硬件系統之間的橋梁,通過多維并行、大規模優化器、消除冗余內存、優化任務調度、降低能量損耗等方式,提升并行訓練效率,并解耦了系統優化與上層應用框架、下層硬件和編譯器,易于擴展和使用。
-
多維并行
目前主流的AI并行方案,如微軟的DeepSpeed、英偉達的Megatron都使用3維并行,即數據并行、流水并行、一維模型并行。夸父在兼容數據并行、流水并行的基礎上,進一步使用自行研發的2維模型并行,3維模型并行和2.5維模型并行。此外,針對大圖片、視頻、長文本、長時間醫療監控等數據,潞晨團隊自研的序列并行,能突破原有機器能力限制,直接處理長序列數據。因此,夸父可以將計算并行度從原有的最高3維提升到5維甚至6維,極大提高了AI模型并行計算效率。
多維模型并行
-
大規模優化器
數據并行可以提升訓練AI模型的批量,進而加速訓練過程,但這通常會導致嚴重的優化問題,AI模型難以保持精度。潞晨團隊自研的LAMB、LARS等大規模優化器,首次將批大小由512擴展到了65536,在極大縮短模型訓練時間的同時保持精度。潞晨團隊將會基于該方向的深厚積累,進一步探索推出新的大規模優化器。
LAMB優化器
-
優化任務調度
現有的任務調度器主要通過GPU個數判斷任務規模,缺乏足夠的彈性,AI任務擴展效率差。潞晨團隊自研的自適應可擴展調度器,能根據批大小等因素自適應彈性擴展,并通過NCCL網絡通信實現高效任務遷移。
自適應可擴展調度器
-
消除冗余內存
盡管英偉達最新發布的A100 GPU顯存容量已高達80GB,但相比于前沿AI模型千億、萬億的參數量,仍然遠遠不夠。在訓練過程中,除了模型參數本身,梯度、優化器狀態等還會進一步嚴重消耗顯存,不能充分利用GPU計算能力。對此,夸父使用zero redundancy optimizer技術,通過切分優化器狀態,梯度,模型參數,使GPU僅保存當前計算所需要的部分,從而減少訓練過程中的GPU顯存消耗,提高GPU利用率。尤其是在部署模型推理時,可通過zero offload,將模型卸載到CPU內存或硬盤,僅使用少量GPU資源,即可實現低成本部署前沿AI大模型。
-
降低能量損耗
在分布式訓練中,能耗的重要來源是數據移動,尤其是不同服務器之間的通信。夸父允許使用特大批量進行訓練,能夠通過減少迭代次數來減少通信次數。而多維模型并行也極大減少了通信次數。例如在1000個處理器并行時,若現有的一維模型并行,每處理器需要與其他999個處理器通信,而在夸父的3維模型并行中,每個處理器僅需與其他9個處理器通信。
數據移動是能耗的重要來源
除了節省能耗費用,由于夸父在整體上提高了處理器利用率和通信效率,能在更短時間內完成AI模型的訓練,消耗更少的算力資源,因此能夠極大降低用戶的訓練成本,節省訓練時間。
-
易于使用
夸父不僅性能卓越,也力求易用性,無需用戶學習繁雜的分布式系統知識,也避免了復雜的代碼修改。僅需要極少量的改動,便可以使用夸父將已有的單機PyTorch代碼快速擴展到并行計算機集群上,無需關心并行編程細節。同時,夸父也兼容單機運行,方便低成本調試和推理部署。夸父還提供了詳盡的說明文檔和常見模型實例,方便用戶使用。
快速開始分布式并行訓練
-
更多特性
本次發布的夸父AI系統為beta版,近期會根據用戶反饋與既定計劃,進行密集的迭代更新,盡早為用戶提供正式版。潞晨科技會還會在未來1年內發布若干子系統,并陸續開源,最終形成面向高性能人工智能平臺的豐富解決方案,充分滿足用戶的不同需求。
傳送門
論文地址:
https://arxiv.org/abs/2110.14883
項目地址:
https://github.com/hpcaitech/ColossalAI
文檔地址:
https://www.colossalai.org/
參考鏈接:
https://www.deepspeed.ai/
https://github.com/NVIDIA/Megatron-LM
https://huggingface.co/blog/large-language-models
https://en.wikipedia.org/wiki/Summit_(supercomputer)
總結
以上是生活随笔為你收集整理的针对这一行业痛点,创新工场投资的潞晨科技发布了大规模并行AI训练系统——“夸父”(Colossal-AI) ,通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式,旨在打造一个的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在Hue中创建一个Oozie工作流
- 下一篇: 若依文件分析