存算一体芯片技术及其最新发展趋势(陈巍谈芯)
相關推薦
陳巍談芯:7.2 RRAM模擬存內計算 《先進存算一體芯片設計》節選https://zhuanlan.zhihu.com/p/474261353
陳巍談芯:存算一體技術是什么?發展史、優勢、應用方向、主要介質(收錄于存算一體芯片賽道投資融資分析)https://zhuanlan.zhihu.com/p/480612865
陳巍談芯:7 分析實戰:Hopper架構——《GPGPU 芯片設計:原理與實踐》節選https://zhuanlan.zhihu.com/p/487250706
■作者:陳巍 博士?資深芯片專家,人工智能算法-芯片協同設計專家,擅長芯片架構與存算一體。國內首個可重構存算處理器架構(已在互聯網大廠完成原型內測),首個醫療領域專用AI處理器(已落地應用),首個RISC-V/x86/ARM平臺兼容的AI加速編譯器(與阿里平頭哥/芯來合作),國內首個3D NAND芯片架構與設計團隊建立(與三星對標),國內首個嵌入式閃存編譯器(與臺積電對標),國內首個90nm閃存芯片架構(與Cypress/SST對標)
存算一體的優勢場景
隨著AI計算、自動駕駛和元宇宙進入行業快車道,全社會巨大的算力需求正在催生新的計算架構。存算一體架構比馮諾依曼架構最大的優勢,表現為超高的算力和能效比,是比馮氏架構更適合AI計算的架構。存算技術也被AspenCore預測為2022年的全球半導體行業十大技術趨勢。
目前存算技術正處在從學術到工業產品的躍遷的關鍵時期。包括阿里達摩院最近剛發布的基于SeDRAM的近存計算芯片,就充分展示了存算技術(第一代僅是近存計算)在數據中心場景的算力和能效實力。
01
存算一體技術的原理及優勢
算力發展速度遠超存儲器(來源:amirgholami@github)
存算一體技術(Computing in Memory,CIM)概念的形成,最早可以追溯到上個世紀90年代。隨著近幾年云計算和人工智能(AI)應用的發展,面對計算中心的數據洪流,數據搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸。從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低,“存儲墻”成為了數據計算應用的一大障礙。深度學習加速的最大挑戰就是數據在計算單元和存儲單元之間頻繁的移動。
數據搬運占據AI計算的主要能耗
存算一體可理解為在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算,而不是在傳統邏輯運算單元或工藝上優化。這樣能從本質上消除不必要的數據搬移的延遲和功耗,成百上千倍的提高AI計算效率,降低成本,打破存儲墻。
除了用于AI計算外,存算技術也可用于感存算一體芯片和類腦芯片,代表了未來主流的大數據計算芯片架構。
存算一體技術的核心優勢包括:
02
存算一體技術的分類
存算技術的分類/演進
目前存算技術在按照以下路線在演進:
??查存計算(Processing With Memory):GPU中對于復雜函數就采用了這種計算方法,是早已落地多年的技術。通過在存儲芯片內部查表來完成計算操作。
??近存計算(Computing Near Memory):典型代表是AMD的Zen系列CPU,技術方案已經比較成熟。計算操作由位于存儲區域外部的獨立計算芯片/模塊完成。這種架構設計的代際設計成本較低,適合傳統架構芯片轉入。將HBM內存(包括三星的HBM-PIM)與計算模組(裸Die)封裝在一起的芯片也屬于這一類。
??存內計算(Computing In Memory):典型代表是Mythic、千芯、閃億、知存、九天睿芯等。計算操作由位于存儲芯片/區域內部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數字的。這種路線一般用于算法固定的場景算法計算。
??存內邏輯(Logic In Memory):這是較新的存算架構,典型代表包括TSMC(在2021 ISSCC發表)和千芯科技。這種架構數據傳輸路徑最短,同時能滿足大模型的計算精度要求。通過在內部存儲中添加計算邏輯,直接在內部存儲執行數據計算。
PIM-HBM芯片架構
03
存內計算芯片基本架構
存算一體芯片基本架構
人工智能/深度學習計算中有大量的矩陣乘法計算,其本質是乘累加(Multiply-Accumulate,MAC)運算。存算將計算直接映射到存儲結構中,具有最高的能效比和最小的延遲。
如存算一體芯片基本架構圖所示,神經網絡模型的權重可以映射為子陣列中存儲單元的電導率,而輸入特征圖(Feature map)作為行電壓并行加載(圖中WL方向),然后以模擬方式進行乘法(即輸入電壓乘以權重電導),并使用列上的電流求和(圖中BL方向)來生成輸出向量。
CIM 可以支持多位權重/輸入/輸出精度。根據存儲單元的精度,一個多位權重可能被分成多個存儲單元。例如,如果每個單元使用 2 位,則 8 位權重可以由 4 個存儲單元表示。
ADC(模數轉換器)/SA(靈敏放大器) 之后的輸出可經過“移位+加法”以重建跨多列的乘法/加法,以提升計算精度。
04
存算一體中存儲單元的對比
目前可用于存算一體的成熟工藝存儲器有DRAM 、SRAM、Flash。
DRAM成本低,容量大,但是可用的eDRAM IP核工藝節點不先進,讀取延遲(Latency)也大,且需要定期刷新數據。Flash則屬于非易失性存儲器件,具有低成本優勢,一般適合小算力場景。SRAM在速度方面具有極大優勢,有幾乎最高的能效比,容量密度略小,在精度增強后可以保證較高精度,一般適用于云計算等大算力場景。
可用于存算一體新型存儲器有PCRAM、MRAM、RRAM和FRAM等。
目前學術界比較關注各種憶阻器(RRAM)在神經網絡計算中的引入。RRAM使用電阻調制來實現數據存儲,讀出電流信號而非傳統的電荷信號,可以獲得較好的線性電阻特性。但目前RRAM工藝良率爬坡還在進行中,而且依然需要面對非易失存儲器固有的可靠性問題,因此目前還主要用于端側小算力和邊緣AI計算。
05
存算技術的發展趨勢
1)提升計算精度
模擬存內計算精度受到信噪比的影響,精度上限在4-8 bit左右,只能做定點數計算,難以實現浮點計算,并不適用于需要高精度的云計算場景和訓練場景,適用于對能效比有較高要求而對于精確度有一定容忍的場景。
數字存算技術則不受信噪比的影響,精度可以達到32bit甚至更高,且可支持浮點計算,是云計算場景存算的發展方向。
2)多算法適配
目前大部分存算芯片還是針對特定算法的DSA(Domain Specific Accelerator),因此當客戶算法需求改變時,就很難做到算法的遷移和適配。這使得一款存算芯片可能只能適配優先的細分市場,難以形成較大的銷量。特別是在端側市場,這一現象明顯。
為了解決多算法適配的問題,目前產業界開始使用可編程或可重構的技術來擴展存算架構的支持能力。其中可重構存算的能效比高于可編程存算的能效比,具有更強的發展潛力。
3)存算/數據流編譯器的適配
存算一體芯片產業化處于起步階段,目前仍面臨編譯器的支持不足的問題。
目前大部分存算芯片采取DSA的方式進行落地,以規避通用編譯器的適配問題。
但隨著存算技術的高速發展和落地,對應的編譯器技術也在快速進步。
存算技術在海量數據計算場景中擁有天然的優勢,將在云計算、自動駕駛、元宇宙等場景擁有廣闊的發展空間。
目前存算技術正處在從學術領域到工業產品落地的關鍵時期,隨著存算技術的不斷進步和應用場景的不斷催生,預計存算一體技術將成為AI計算領域的主要架構。
總結
以上是生活随笔為你收集整理的存算一体芯片技术及其最新发展趋势(陈巍谈芯)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二阶梯度优化新崛起,超越 Adam,Tr
- 下一篇: 树莓派应用总结