还怕GPU资源不够用?多实例GPU MIG助攻资源利用难题
從農業時代的鋤頭鐮刀,到工業時代蒸汽機發電機,每個時代都有每個時代的象征符。在邁向工業 4.0 智能化時代的現在,轉戰 GPU、使能并行計算、擴展云上算力...... 數字世界的每一個關鍵詞無一不是圍繞著效率和能力展開,計算能力和計算效率是這個時代留給我們的深刻烙印。這樣的背景下,追逐計算能力和計算效率的腳步一刻也不曾停歇,而隨著云端數據中心 GPU 部署比例的提升,如何提高 GPU 利用率、充分釋放 GPU 計算能力成為眼下備受矚目的話題之一。
在之前的探索過程中,GPU 也借鑒了 CPU 發展的思路,嘗試過采用虛擬化的方式。早先的 GPU 虛擬化把同一個 GPU 資源分給不同的程序同時使用,但是因為內存訪問模型不夠成熟和完善,在多用戶的情況下,很難實現多個用戶同時共享一塊 GPU,通常就只能將一塊 GPU 分配給一個用戶,計算資源的浪費的情況仍然很嚴重。
而隨著 GPU 的應用越來越廣泛,應用場景愈發多元,對 GPU 的利用率的要求也不斷提升,傳統虛擬化方法之下,GPU 計算資源的浪費對計算效率造成的的影響日漸凸顯,提升算力以外,破解資源浪費難題也已迫在眉睫。
MIG(multi-Instance GPU)就這樣應運而生了。
2020 年 5 月 14 日,NVIDIA 發布了最新的 GPU 架構 -- 安培。全新的安培架構提供了一系列新性能,而其中最值得一提的無疑是 MIG(多實例 GPU)。MIG 打破了 GPU 虛擬化中資源分配的瓶頸,能夠將基于安培架構的 GPU 服務器 A100 切分成 7 個 GPU 實例,并且可以使每一個 GPU 實例都能夠擁有各自的 SMs 和內存系統,讓每個實例之間的內存空間訪問互不干擾,保障每一個使用者的工作時延和吞吐量都是可預期的。
一個 NVIDIA A100 GPU 能夠劃分成不同大小的 GPU 實例,例如可以創建兩個各有 20 千兆字節 (GB) 內存的實例、三個各有 10 GB 內存的實例、七個各有 5 GB 內存的實例或者其他多個組合。管理員可以根據不同類型的工作負載,動態地配置 GPU 實例,靈活地分配 GPU 資源,從而實現資源利用最大化。
在實際的使用中,一個 GPU 實例還可以再切分成多個計算實例。同一個 GPU 實例中的計算實例是共享內存的,但每個計算實例還擁有獨立的流處理器,因此如果使用者有多項互相關聯的工作,并且使用共享內存較為便利的話,可以選擇在一個 GPU 實例當中使用多個計算實例來處理。通過這樣的設計,使用者能夠更加靈活地調度 GPU 的資源。
除了在 GPU 資源調度和利用方面的提升,多實例 GPU 還為分布式計算提供著強有力的支持。虛擬化的訪問模型能夠為分布式計算的軟件棧提供一個干凈的接口,將 GPU 底層的實現細節封入“黑箱”,讓開發者能夠利用虛擬化概念輕松構建多用戶使用模型和界面,全面賦能高效計算。
這樣的 MIG,你心動了嗎?
想玩轉 MIG,你一定不能錯過這場公開課!
7 月 21 日晚 20:00,NVIDIA 將聯合 InfoQ 舉辦線上公開課,全方位解讀和 MIG 有關的那些事。屆時,NVIDIA GPU 計算專家薛博陽,將為大家傾情講解「如何玩轉安培架構的 MIG (多實例 GPU) 及其應用案例分享」,助力廣大開發者破解云時代 GPU 資源利用難題,加高計算競爭壁壘。
通過這次在線培訓,你將收獲以下內容:
MIG 如何運作;
為什么我們需要 MIG;
如何使用 MIG;
案例分析: 在 MIG 上使用 Fastertransformer。
還在等待什么,掃描下方二維碼或點擊閱讀原文,獲取直播鏈接!
掃 / 碼 / 報 / 名
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的还怕GPU资源不够用?多实例GPU MIG助攻资源利用难题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【论文解读】CVPR 2020:物体检测
- 下一篇: 【机器学习基础】SVM算法在项目实践中的