稀疏性如何为AI推理增加难度
稀疏性如何為AI推理增加難度
NVIDIA Ampere架構(gòu)使數(shù)學運算加倍,以加速對各種神經(jīng)網(wǎng)絡的處理。
如果曾經(jīng)玩過游戲Jenga,那么將有一些AI稀疏感。
玩家將木制積木交叉成一列。然后,每個玩家輪流小心地移開一個障礙物,而不會傾倒立柱。
它從一開始就很容易,但是變得越來越毛茸茸,直到失敗的玩家拔出一個障礙物,導致塔樓墜毀。
多年來,研究人員一直在努力地利用數(shù)字打積木,以利用稀疏性來加速AI。他們嘗試從神經(jīng)網(wǎng)絡中提取盡可能多的不需要的參數(shù)-而不破壞AI的超高精度。
目標是減少深度學習所需的矩陣乘法堆,從而縮短達到良好結(jié)果的時間。到目前為止,還沒有大贏家。
迄今為止,研究人員已經(jīng)嘗試了多種技術來提取神經(jīng)網(wǎng)絡中多達95%的權重。但是隨后,他們花了比他們節(jié)省的時間更多的時間,不得不采取激進的步驟來彌補簡化模型的準確性。適用于一種模型的步驟不適用于其他模型。
數(shù)字稀疏
NVIDIA安培架構(gòu)引入了第三代張量磁芯在NVIDIA A100的GPU稱取在網(wǎng)絡權細粒度稀疏的優(yōu)點。提供了高達2倍的密集數(shù)學最大吞吐量,而不會犧牲深度學習的核心矩陣乘法累加作業(yè)的準確性。
測試表明,這種稀疏方法在許多AI任務(包括圖像分類,目標檢測和語言翻譯)中使用密集數(shù)學來維持方法的準確性。它也已經(jīng)在卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡以及基于注意力的轉(zhuǎn)換器上進行了測試。
A100打包了稀疏矩陣以加速AI推理任務。
內(nèi)部數(shù)學運算速度的提高對應用程序級別具有重大影響。使用稀疏性,A100 GPU可以運行BERT(來自轉(zhuǎn)換的雙向編碼器表示),這是用于自然語言處理的最新模型,比密集型數(shù)學要快50%。
NVIDIA Ampere架構(gòu)利用了神經(jīng)網(wǎng)絡中較小值的普遍性,從而使盡可能廣泛的AI應用程序受益。具體來說,定義了一種訓練神經(jīng)網(wǎng)絡的方法,該方法可以去除一半的權重,即所謂的50%稀疏度。
當做對時,少即是多
一些研究人員使用粗粒度剪枝技術,這些技術會從神經(jīng)網(wǎng)絡層中刪除整個通道,從而經(jīng)常降低網(wǎng)絡的準確性。NVIDIA Ampere架構(gòu)中的方法采用結(jié)構(gòu)化的稀疏性和細粒度的剪枝技術,不會明顯降低準確性,用戶在重新訓練模型時可以進行驗證。
適當剪枝網(wǎng)絡后,A100 GPU將自動完成其余工作。
A100 GPU中的Tensor Core有效壓縮稀疏矩陣以啟用適當?shù)拿芗瘮?shù)學。跳過矩陣中實際上是零值位置的位置會減少計算量,節(jié)省功耗和時間。壓縮稀疏矩陣還可以減少寶貴的內(nèi)存和帶寬的使用。
總結(jié)
以上是生活随笔為你收集整理的稀疏性如何为AI推理增加难度的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cuSPARSELt开发NVIDIA A
- 下一篇: A100 GPU硬件架构