【深度学习】GPU选型调研!3090依旧是性价比之王
最近算力不夠,一些加Transfomer的3D圖像分割,現有的顯卡顯存都帶不動,或者是一個實驗要跑一周以上時間。所以近期又專門花時間調研了下GPU選型。
現有兩張3090顯卡,因為是公版,卡外形比較大,dell的服務器只能塞下兩張卡。原先設想是做8卡的3090,但咨詢了Dell的供應商,說是現在都不太做8卡了,一般只做到4卡,個別型號可以做到6卡。但3090顯存只有24G,要體驗大batch條件下的3D圖像分割計算,這個顯存還不夠。所以就把目光從消費級顯卡投向了專業計算卡。
Nvidia顯卡型號看似眼花繚亂,但結合具體使用需求來看,符合的顯卡也就那么幾款。Nvidia主流的幾款GPU型號簡介如下表所示。
從表中可以看到,除了A系列和V系列的專業計算卡之外,其余都是消費級顯卡。其中TITAN Xp、1080Ti和3060都可以作為入門選手使用,顯存不是那么大但作為入門跑跑中小模型還是沒問題的。作為進階的話,2080Ti、A4000、A5000、3080Ti和3090都很合適,尤其是3090,可以算是性價比之王,因為其比較大的顯存帶寬,雖然單精、半精都弱于A40專業計算卡,但到大多數算法上的實測速度都不差于A40。至于A40,可以視作是擴了顯存版本的3090,像筆者目前這樣對顯存有一定要求的,A40就是一個不錯的選擇。V100是老一代專業計算卡王,而A100則是新一代專業計算卡王,這類級別的顯卡,除了貴,沒其他缺點了。
Nvidia RTX 3090
關于更具體的GPU參數信息,可參考這個地址:
https://www.techpowerup.com/gpu-specs/
以下是3090和A40在ResNet50和ViT上性能實測。
3090:
>>> ResNet50 Namespace(device=0, model='resnet50', precision='float16', train=False) Iteration 0, 2294.06 images/s in 0.837s. Iteration 1, 2391.29 images/s in 0.803s. Iteration 2, 2396.06 images/s in 0.801s. Iteration 3, 2394.62 images/s in 0.802s. Iteration 4, 2402.61 images/s in 0.799s. Namespace(device=0, model='resnet50', precision='float32', train=False) Iteration 0, 1453.34 images/s in 1.321s. Iteration 1, 1490.90 images/s in 1.288s. Iteration 2, 1491.79 images/s in 1.287s. Iteration 3, 1493.76 images/s in 1.285s. Iteration 4, 1494.50 images/s in 1.285s.>>> ViT Transformer Namespace(device=0, model='vit_base_patch16_224', precision='float16', train=False) Iteration 0, 1044.44 images/s in 1.838s. Iteration 1, 1047.37 images/s in 1.833s. Iteration 2, 1046.37 images/s in 1.835s. Iteration 3, 1044.68 images/s in 1.838s. Iteration 4, 1043.91 images/s in 1.839s. Namespace(device=0, model='vit_base_patch16_224', precision='float32', train=False) Iteration 0, 596.59 images/s in 3.218s. Iteration 1, 599.41 images/s in 3.203s. Iteration 2, 598.86 images/s in 3.206s. Iteration 3, 597.92 images/s in 3.211s. Iteration 4, 597.46 images/s in 3.214s.A40:
>>> ResNet50 Namespace(device=0, model='resnet50', precision='float16', train=False) Iteration 0, 1837.41 images/s in 1.045s. Iteration 1, 1892.04 images/s in 1.015s. Iteration 2, 1893.29 images/s in 1.014s. Iteration 3, 1892.99 images/s in 1.014s. Iteration 4, 1892.73 images/s in 1.014s. Namespace(device=0, model='resnet50', precision='float32', train=False) Iteration 0, 1102.49 images/s in 1.742s. Iteration 1, 1115.45 images/s in 1.721s. Iteration 2, 1118.49 images/s in 1.717s. Iteration 3, 1117.32 images/s in 1.718s. Iteration 4, 1117.80 images/s in 1.718s.>>> ViT Transformer Namespace(device=0, model='vit_base_patch16_224', precision='float16', train=False) Iteration 0, 1155.09 images/s in 1.662s. Iteration 1, 1153.70 images/s in 1.664s. Iteration 2, 1152.89 images/s in 1.665s. Iteration 3, 1150.99 images/s in 1.668s. Iteration 4, 1150.53 images/s in 1.669s. Namespace(device=0, model='vit_base_patch16_224', precision='float32', train=False) Iteration 0, 675.17 images/s in 2.844s. Iteration 1, 680.69 images/s in 2.821s. Iteration 2, 679.15 images/s in 2.827s. Iteration 3, 678.90 images/s in 2.828s. Iteration 4, 678.21 images/s in 2.831s.可見,雖然A40是專業計算卡內存大,并且單精半精都強于3090,但因其顯存帶寬的劣勢,模型實測性能可能還不如3090。
所以,總結起來就是,買顯卡盡量買3090!
參考資料:
https://www.autodl.com/docs/gpu_perf/
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【深度学习】GPU选型调研!3090依旧是性价比之王的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql集群_MySQL集群
- 下一篇: vue生命周期详解、钩子函数的调用(简单