所有处理都走向AI
所有處理都走向AI
All Processing Bends Toward AI
舊金山——谷歌正在試驗機器學習(ML)來執(zhí)行集成電路設計中的位置和路徑,并取得了很好的效果。上周在ISSCC會議上宣布的這一發(fā)現(xiàn),對人工智能(AI)和電路設計同樣重要。
多年來,人工智能一直是電子行業(yè)中規(guī)模最大的東西,吸引了大量的半導體研究(連同風險投資和頭條新聞)。認識到這一點,今年的集成固態(tài)電路會議(ISSCC)的主題是“為人工智能時代提供動力的集成電路”,開幕全體會議的目的是繪制人工智能引領半導體空間的程度。
贊助:智能設備的未來:上下文感知
四位全會發(fā)言人解釋了人工智能的要求,例如,如何推動專門為人工智能應用而設計的新型處理器(與CPU和GPU并駕齊驅);推動結構創(chuàng)新(例如,芯片、多芯片包、插入器);甚至正在影響量子計算的發(fā)展。
全會的第一位發(fā)言人是谷歌人工智能的領頭羊杰夫?迪恩。迪恩發(fā)布了一個機器學習(ML)概述的更新,他已經(jīng)以一種或另一種形式呈現(xiàn)了一年多,目的是引入ML place-and-route工具的討論。
一位人類專家放置和路由ASIC設計的結果與來自低功耗ML加速器芯片的結果。谷歌故意掩蓋了部分圖片。
他首先簡要介紹了人工智能和機器學習的歷史,從1995年學會玩雙陸棋的機器開始,通過學習擅長國際象棋的機器運行,然后在圍棋上運行,現(xiàn)在可以談判復雜的電子游戲,如星際爭霸“取得了顯著的成功”。機器學習還被用于醫(yī)學成像、機器人技術,計算機視覺、自動駕駛汽車、神經(jīng)科學(分析腦部掃描顯微鏡)、農(nóng)業(yè)、天氣預報等。
贊助:Die-to-Die Connectivity連接選擇正確的IP
幾十年來推動計算的基本思想是,問題越大,你投入的處理能力就越大,你擁有的處理能力就越多,你能解決的問題就越大。有一段時間,這適用于用人工智能解決問題。
當問題空間變得如此巨大時,根本不可能積累足夠的CPU(和/或GPU)來解決它們。
然而,事實證明,AI/ML并不需要典型的CPU/GPU電源。所需的數(shù)學可以更簡單,所需的精度也要低得多。這種實現(xiàn)有實際的影響:專用于AI/ML的處理器不必像cpu/gpu那樣復雜。
這是導致專門設計用于推理的處理器的基本見解之一,比如現(xiàn)在已經(jīng)進入第三代的谷歌自己的TensorFlow處理器。順便說一句,人們普遍認為谷歌有一天會推出第四代TensorFlow,但如果有人希望谷歌能在ISSCC上透露任何有關它的信息,這些希望就破滅了。
在認識到推理所需的精度較低之后,又認識到訓練所需的精度也較低,這是相對較新的。《EE時報》編輯莎莉?沃德?福克斯頓(Sally Ward Foxton)在她最近的博客《人工智能獲取自己的數(shù)字系統(tǒng)》(artificialligencegetsinowsystemofnumbers)中解釋了這一概念。
AI/ML處理器可以相對簡單,因此相對便宜,而且我們現(xiàn)在有足夠強大的AI/ML處理器,即使在巨大的數(shù)據(jù)集上也可以非常快速地訓練。迪恩解釋說,所有這些都使機器學習更容易深入到網(wǎng)絡邊緣。一個具體的例子是語音識別;迪恩說,截至2019年,谷歌已經(jīng)有了一個相當緊湊的模型,可以在智能手機上工作。
每個人工智能應用程序-自動駕駛,醫(yī)學成像,玩圍棋-結果調整一個專用的人工智能/毫升系統(tǒng)來學習每一個。我們基本上每個應用程序都有一個AI。下一個問題是:有沒有可能把一個學會了一件事的人工智能應用到其他類似的任務中去?
迪恩說:“我之所以提出這個問題,是因為我們開始考慮在ASIC設計中使用它作為位置和路徑。“地點和路線的游戲遠遠大于圍棋。問題的規(guī)模更大,不過目標并不像圍棋那樣明確。”
Google為place和route創(chuàng)建了一個學習模型,然后開始尋找這個工具是否可以推廣。它能把它在一個設計上學到的東西應用到一個它從未見過的新設計上嗎?答案是明確的“是”
此外,迪恩說:“我們在迄今為止嘗試過的所有街區(qū)都取得了超人的結果。它的表現(xiàn)稍好一點,有時也明顯好于人類。”
谷歌比較了使用機器學習(ML)自學放置和路由ASIC組件的人工智能的性能結果。測試電路是幾個不同的模塊,包括一個Ariane RISC-V CPU。Google對相同ML的性能進行了逐步的額外調整,所有這些都與商業(yè)工具的性能進行了比較。
“更好”包括在非常短的時間內演示place-and-route地點和路線。完成這項任務可能需要人類專家一周又一周的時間。迪恩報告說,一個ML放置器通常在24小時內完成相同的工作,其布局通常具有較短的線長度。ML placer在自動放置和路由工具方面也做得很好。
迪恩說,ML還可以擴展到集成電路設計過程的其他部分,包括使用ML來幫助生成測試用例,以便在ASIC設計驗證中更充分地利用狀態(tài)空間,還可以使用ML來改進高級綜合,以便從高級描述中獲得更優(yōu)化的設計。
然而,這一切對ML的意義,與加速IC設計進度的意義一樣重要。如果一個ML可以在一個類別中泛化,那么它可以泛化到其他類別中執(zhí)行任務嗎?
“未來的ML模型會是什么樣子?”迪恩問。“我們可以訓練一個模型來概括類似的任務嗎?理想情況下,我們希望有一個模型能夠學習完成數(shù)千或數(shù)百萬項任務。”
人工智能物聯(lián)網(wǎng)
聯(lián)發(fā)科高級副總裁兼首席戰(zhàn)略官寇鴻(音譯)談到了人工智能如何改變幾乎所有連接到互聯(lián)網(wǎng)的東西,人工智能物聯(lián)網(wǎng)(AIoT)將從目前的數(shù)百億臺設備迅速擴展到2030年全球約3500億臺設備。
人工智能之所以走向邊緣,部分原因在于它可以(正如迪恩在本次會議上早些時候提到的那樣),而且在許多情況下,它必須這樣做,原因有很多,包括減輕數(shù)據(jù)中心日益增長的處理負擔,最小化網(wǎng)絡上的流量,以及因為一些應用程序需要或將最好地工作于本地處理。
本地處理必須快速,必須專門為人工智能計算而設計,而且必須非常節(jié)能。
它們本質上是一種新的處理器類別。Loh稱之為AI處理器單元(APU)。其他人把它們分別稱為神經(jīng)處理單元(NPU)、大腦處理單元(BPU)和其他名稱。他說,舉例來說,一個APU的靈活性可能不如一個CPU,但由于它是專門制造的,APU的速度可以高達20倍,功耗可以低55倍。
Loh說,APU的開發(fā)人員正在開發(fā)一種設備,這種設備的功率將達到每瓦特3個頂部,即1個頂部。他說他相信10頂/W的10頂是可以實現(xiàn)的。他說,最終有可能以30頂/瓦的速度達到100頂。
并非巧合的是,聯(lián)發(fā)科的研究人員在ISSCC上提交了一份單獨的論文,提出了“3.4到13.3TOPS/W 3.6 TOPS雙核深度學習加速器,用于7NM5G智能手機SoC中的多用途人工智能應用” 。
在7nm。性能的提高將通過沿著摩爾定律的曲線到更小的工藝節(jié)點至少再跑一步來實現(xiàn),從現(xiàn)在的7nm到5nm。洛克說,摩爾定律仍然適用。
不過,這并非沒有警告。隨著集成度的增加,晶體管的數(shù)量不斷增加,繼續(xù)遵循經(jīng)典的摩爾定律曲線,“但每晶體管的成本并沒有跟隨,”Loh說。此外,由于芯片設計的復雜性,以及工藝步驟越來越復雜,尖端設備的成本正在飆升,這使得小公司無法使用這項技術。也有產(chǎn)量問題。
洛赫說,解決這些問題的一個共同辦法是拆模。實際上,這可能意味著使用芯片技術等方法。“這會導致比摩爾定律更好的結果,”他說。無論是芯片組還是其他架構方法,這都意味著互連面臨更多挑戰(zhàn)。
系統(tǒng)技術“協(xié)同優(yōu)化”
Imec的項目總監(jiān)Nadine Collart將全會的主題提前到下一步,回顧了分離芯片的必要性,并找出了未來集成電路的替代結構和架構。她稱之為it系統(tǒng)技術協(xié)同優(yōu)化(STOC)。
她說,摩爾定律可能在未來幾年適用,但擴展CMOS的難度越來越大。她用一系列越來越復雜的器件結構的例子來說明這一點,包括(但幾乎不限于)FinFETs,、納米片和叉形片,它們確實可以用于在芯片級實現(xiàn)進一步的CMOS縮放。
Imec證明了在絕緣體上的硅(SOI)襯底上以納米脊的形式生長未指明的III-V材料的能力。
不過,她解釋說,最終還是要付出一些東西。我們需要一種新的方法,“我們相信3D技術是最好的方法。這包括多模封裝,使用鍵合,甚至在設備層面,與其他標準電池進行精細連接。”
找出使用哪種技術需要根據(jù)可用選項的屬性匹配系統(tǒng)需求。科勒特說:“這將是一項復雜的運動。這將給EDA廠商帶來壓力,迫使他們提供工具,使設計者能夠權衡自己的選擇。
無線通信系統(tǒng)的前端模塊將是一個特殊的挑戰(zhàn)。“一般來說,這些系統(tǒng)是最多樣化的系統(tǒng)——它們有許多不同的組件,采用不同的技術,而且隨著更多的天線、更多的PAs、更多的濾波器,復雜性將增加……”
這個行業(yè)正朝著更高的頻率和更高的效率發(fā)展。一種選擇是將III-V材料(例如GaN和SiC)與CMOS結合起來,以獲得這兩種材料的好處。她說,這可以通過3D集成來實現(xiàn),展示了幾個例子,包括在絕緣體硅(SOI)襯底上生長III-V材料的3D納米脊的圖像,“但要實現(xiàn)這一點,還需要做很多工作。”
至于回憶?collart說:“像AI和ML這樣的新應用正在推動著路線圖的發(fā)展。”。他們需要快速存取存儲器。“現(xiàn)在有一種趨勢是在內存中考慮計算,隨著邏輯和內存越來越接近,3D封裝當然非常重要。”
她說,向前看,在高級應用程序中使用flash將意味著堆疊更多的層。在這些存儲中也有一種改善通道電流的愿望。“要做到這一點,我們必須研究信道移動性,這意味著要研究III-V材料。”并且通過擴展來研究將一層硅與一層III-V材料堆疊在一起的3D架構。
與此同時,在DRAM中,電容器正從矮小的圓柱體成長為支柱——這是第三維度的又一次轉變。其他存儲器選項包括用于緩存替換的磁性存儲器,以及3D存儲類存儲器collart指出,Imec已經(jīng)展示了一種垂直FeFET(鐵電場效應晶體管),仍需進一步研究。
她說,所有這些存儲的發(fā)展,“都是在機器學習的背景下進行的。人工智能正在蓬勃發(fā)展。其中很多都在云中,但由于種種原因,我們希望把它移到邊緣,那里的能源將受到限制。”
Imec比聯(lián)發(fā)科更樂觀,因為它認為可能達到10000頂/瓦。
“規(guī)模不斷擴大。派對還沒結束!”她總結道。“新的存儲可能無法進入路線圖,但它們可能在機器學習中有應用。”
量子計算
IBM研究主管達里奧·吉爾(Dario Gil)在全體會議上發(fā)表了“下一步是什么”的講話,他說這是廣義的人工智能,這幾乎肯定會在量子計算機上實現(xiàn)。也就是說,他演講的主旨是,最大的好處可能來自比特(數(shù)字處理)、神經(jīng)元(AI)和量子計算(量子計算)的互補使用。
他指出,IBM在2016年通過云開放了對其第一臺量子計算機的訪問,現(xiàn)在它可以訪問15臺可用的量子計算機,包括其最新的53位模型。
總結
- 上一篇: 功率半导体碳化硅(SiC)技术
- 下一篇: ARM的突破:超级计算机和Mac