深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)
搭建需求
由于當(dāng)前算法和模型對(duì)GPU的強(qiáng)烈需求,實(shí)驗(yàn)室購(gòu)置了一臺(tái)性能強(qiáng)悍的GPU云服務(wù)器供大家一起使用。如果所有人對(duì)這臺(tái)服務(wù)器擁有控制權(quán)是十分危險(xiǎn)的,例如誤刪除他人文件,弄亂他人環(huán)境等。最簡(jiǎn)單的方法是為每位同學(xué)配置一臺(tái)虛擬機(jī),但硬件虛擬化造成大量的資源浪費(fèi),同時(shí)GPU并不支持常規(guī)的虛擬化。
?云計(jì)算資源因安全措施考慮會(huì)進(jìn)行如下設(shè)置:?設(shè)置訪問白名單,限制僅實(shí)驗(yàn)室環(huán)境下訪問。外部環(huán)境若需要訪問計(jì)算資源,需先通過VPN接入實(shí)驗(yàn)室內(nèi)網(wǎng)?僅開放用于SSH連接的端口到公網(wǎng)
基于上述背景整理提出以下需求:
?獨(dú)立:不同用戶的環(huán)境相互獨(dú)立,可同時(shí)使用。?隔離:用戶不能直接操作宿主機(jī),即用戶不能逃逸至宿主機(jī)。用戶訪問宿主機(jī)的唯一通道是共享文件夾。?自由:用戶可以像使用一臺(tái)自己的Linux機(jī)器一樣,通過SSH訪問,并擁有主機(jī)的所有權(quán)限。?GPU:核心需求,每位同學(xué)可以直接訪問GPU和使用宿主機(jī)的所有資源,包括CPU、內(nèi)存、硬盤等。?可控:管理員可以較為方便對(duì)每位同學(xué)的機(jī)器進(jìn)行管理,如資源爭(zhēng)搶嚴(yán)重時(shí),限制每位同學(xué)的資源使用上限(GPU, CPU, 內(nèi)存等)?開銷: 為滿足這些需求,額外的開銷應(yīng)該盡可能小到可以忽略。?利用率:公用算力的資源應(yīng)該能得到最大化的利用?復(fù)雜度:整套解決方案不能太復(fù)雜,便于維護(hù)
宿主機(jī)硬件配置
?GPU NVIDIA Tesla P40 *2?Memory 64G?Disk 100G SSD 系統(tǒng)盤 + 500G SSD 數(shù)據(jù)盤?CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz?OS Ubuntu 20.04 LTS Server
解決方案
需求中有兩個(gè)核心點(diǎn):
總結(jié)
以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据可视化应用】绘制峰峦地图(附Pyt
- 下一篇: 产品经理经验谈50篇(五):如何做好一份