使用NVIDIA A100 TF32获得即时加速
使用NVIDIA A100 TF32獲得即時加速
NVIDIA A100帶來了我們公司歷史上最大的單代性能增長。這是一個新的結構創新,這是一個多功能的支持,這是一個多功能的結構支持。TF32是用于深度學習訓練的絕佳精度,因為它結合了FP32的范圍和FP16的精度,與上一代的FP32精度相比,可提供高達5倍的加速。在這篇文章中,將簡要介紹TF32的內部工作原理,并討論顯示其在一系列使用和網絡中的影響的性能數據。
TF32 at a glance
浮點數據表示十進制數,如硬件中使用符號位(正數或負數)、指數(小數點左側的數字)和尾數(小數點右側的數字)。指數表示數字的范圍,尾數表示精度。TF32達到了一個平衡,因為它與FP32具有相同的范圍,并且有足夠的位來提供AI訓練所需的精度,而不需要使用太多的位,從而減慢處理速度和增加內存。
為了獲得最佳性能,A100還增強了16位數學功能,支持FP16和Bfloat16(BF16),其速率是TF32的兩倍。使用自動混合精度(AMP),只需幾行代碼就可以將性能提高一倍。有關TF32力學的更多信息,請參閱A100 GPU加速AI訓練中的TensorFloat-32,HPC高達20倍。
Accelerated training across use cases
比較A100 TF32 precision和上一代V100 FP32的訓練性能。所看到的是time-to-solution時間到解決方案(TTS)的加速,范圍從2倍到5倍以上,這些加速沒有代碼更改,幾乎沒有造成精度損失,因此網絡收斂速度更快。這些優勢使應用程序能夠更快、更頻繁地接受訓練。一些現代人工智能應用程序每天對網絡進行多次再訓練。如果處于構建神經網絡的早期階段,更快的訓練時間意味著更快地完成模型構建,從而加快部署應用程序的時間。 下面來看看TF32可以在不同的網絡上以8-GPU服務器配置運行的TTS加速。圖表顯示了解決問題的時間,這是評估訓練績效的關鍵指標。當達到一個停止標準時,網絡的訓練運行就完成了,比如提高精度的百分比,或者在完成一系列迭代之后,也就是所謂的epoch。如果一個網絡不收斂,那么訓練運行就永遠不會完成,這就是為什么只看吞吐量就不能得到完整的性能圖。
Figure 1. Bars show the time-to-solution
speedups that A100 TF32 can deliver compared to V100 FP32.
Table 1. The actual time to solution for each network to converge.
使用TF32精度,A100提供了計算機視覺,語音,語言,以及推薦系統網絡顯著的加速。最大的加速出現在BERT自然語言處理(NLP)網絡上,TF32帶來了5倍的TTS加速。
可能會注意到NVIDIA包含了一個名為ELECTRA的網絡(高效地學習能夠準確地對代幣替換進行分類的編碼器),這是一種新穎的語言表示預訓練方法。Electra在各種NLP任務上的計算預算相同,其性能優于現有技術。對于計算機視覺網絡,TTS的加速比為2.5倍,而對于Facebook創建的推薦系統網絡DLRM,TTS的加速倍數約為3倍。
除了圖中所示的網絡之外,我們還評估了來自GitHub上深度學習示例的23個不同網絡的數據。總的來說,我們看到這些網絡的平均TTS加速率為2.6倍。沒有任何代碼更改。有關性能數據的更多信息,請參閱NVIDIA數據中心深度學習產品性能。
Putting TF32 to work
英偉達使更容易使用TF32。
這是cuDNN庫中的默認精度,它加速了神經網絡的關鍵數學運算。TensorFlow和Pythorch深度學習框架現在都支持TF32,并且可以在NGC上使用。在CuBLAS(基本線性代數)和CuTensor(張量基元)中也支持TF32。
對于HPC應用,一個GPU加速線性求解器CuSolver可以利用TF32。線性解算器使用具有重復矩陣數學計算的算法,廣泛應用于地球科學、流體動力學、醫療保健、材料科學、核能以及油氣勘探等領域。
Get started with TF32 today
在第一個GPU實例在云端上線10年后,有100個GPU出現在市場上。憑借其TF32精度,以及MIG和加速結構稀疏性等其他特性,將GPU加速計算推進到每個主要CSP上的云GPU計算的下一個十年。
然而,強大的硬件是不夠的。深度學習和HPC需要一個完整的平臺方法。除了深入學習的例子,NVIDIA NGC還包括框架和應用程序的容器化資源,以及預先訓練的模型、Helm圖和腳本。
總結
以上是生活随笔為你收集整理的使用NVIDIA A100 TF32获得即时加速的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用PCAST检测散度以比较GPU和CP
- 下一篇: 使用NVIDIA GRID vPC支持视