达芬奇架构NPU
達芬奇架構NPU
達芬奇架構的核心優勢是什么?如何更好地賦能麒麟990?
達芬奇架構,是華為自研的面向AI計算特征的全新計算架構,具備高算力、高能效、靈活可裁剪的特性,是實現萬物智能的重要基礎。具體來說,達芬奇架構采用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鐘周期內實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。
3D Cube
同時,為了提升AI計算的完備性和不同場景的計算效率,達芬奇架構還集成了向量、標量、硬件加速器等多種計算單元。支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求,實現AI的全場景需求覆蓋。
在如智能手機等實際端側AI應場景中,AI算力與功耗的協調是至關重要的,一般來講更高的AI算力意味著更大的功耗,因此智能手機的續航常常使AI算力受限。而有了達芬奇架構NPU,這一狀況將得到改善,如果麒麟990能夠搭載達芬奇架構NPU,麒麟芯片或將再次迎來震動行業的算力升級。
DaVinci Core是如何實現高效AI計算的?
華為推出AI芯片昇騰310,達芬奇架構,昇騰310相當于AI芯片中的NPU。其中,DaVinci Core只是NPU的一個部分,DaVinci Core內部還細分成很多單元,包括核心的3D Cube、Vector向量計算單元、Scalar標量計算單元等,各自負責不同的運算任務實現并行化計算模型,共同保障AI計算的高效處理。
? 3D Cube矩陣乘法單元:算力擔當
剛才已經提到,矩陣乘是AI計算的核心,這部分運算由3D Cube完成,Buffer L0A,L0B,L0C則用于存儲輸入矩陣和輸出矩陣數據,負責向Cube計算單元輸送數據和存放計算結果。
? Vector向量計算單元:靈活的多面手
雖然Cube的算力很強大,但只能完成矩陣乘運算,還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定制的計算類型.
? Scalar標量計算單元:流程控制的管家
Scalar標量運算單元主要負責AI Core的標量運算,功能上可以看作一個小CPU,完成整個程序的循環控制,分支判斷,Cube/Vector等指令的地址和參數計算以及基本的算術運算等。
3D Cube計算方式,有哪些獨特的優勢?
不同于以往的標量、矢量運算模式,華為達芬奇架構以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位面積下的AI算力,充分激發端側AI的運算潛能。以兩個NN的矩陣AB 乘法為例:如果是N個1D 的MAC,需要N2(即N的2次方)的cycle數;如果是1個N2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,只需要1個Cycle。
(圖中的計算單元的數量只是示意。實際可靈活設計)
華為創新設計的達芬奇架構將大幅提升算力,161616的3D Cube能夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。這是什么意思呢?舉例來說,同樣是完成4096次運算,2D結構需要64行64列才能計算,3D Cube只需要161616的結構就能算出。其中,6464結構帶來的問題是:運算周期長、時延高、利用率低。
達芬奇架構的這一特性也完美體現在麒麟810上。作為首款采用達芬奇架構NPU的手機SoC芯片,麒麟810實現強勁的AI算力,在單位面積上實現最佳能效,FP16精度和INT8量化精度業界領先,搭載這款SoC芯片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市,為廣大消費者提供多種精彩的AI應用體驗。
更強算力的麒麟990,開啟互聯互通的智慧新場景
一直以來,麒麟芯片的AI實力之所以受到人們的認可,除了強勁的AI計算力領先行業,華為手機實現眾多應用場景。達芬奇架構作為華為自研架構,在應用適應性方面與華為的理念一脈相承,基于靈活可擴展的特性,達芬奇架構能夠滿足端側、邊緣側及云端的應用場景,可用于小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力,麒麟990所使用到的只是端側AI最基本的一部分。
并且,想要真正實現萬物互聯的AI生態,離不開廣大的AI開發者,那么選擇開發統一架構就是一個非常關鍵的決策了。對于廣大開發者來說,基于達芬奇架構的統一性,在面對云端、邊緣側、端側等全場景應用開發時,只需要進行一次算子開發和調試,就可以應用于包括麒麟芯片在內的不同平臺,大幅降低了遷移成本。
體驗最多的AI應用大多來源于智能手機,但對于整個AI生態來說,智能手機只是一個開端,未來更多的AI應用涌現、跨平臺遷移才能真正實現無處不在的智慧生活。因此,如果麒麟990真的搭載了達芬奇架構NPU,不止是手機算力提升那么簡單,以AI之力加速萬物互聯的智慧時代。
采用達芬奇架構AI芯片Ascend 910,與之配套的新一代AI開源計算框架MindSpore。
總結
- 上一篇: 3D Cube计算引擎加速运算
- 下一篇: 单精度和半精度混合训练