用Habana取代Nervana!英特尔为何这样做?
近日,Intel 宣布了在 AI 領域的一個新動作:新近收購的 Habana 的系列產品將取代原定的服務器端 AI 加速芯片 Nervana Spring Crest NNP-T,而 Spring Crest NNP-T 系列將停止開發。本文將對 Intel 的這個決定做深入解讀。
Intel 收購 Nervana:Intel 在 AI 領域的第一個大動作
我們首先分析一下 Nervana Spring Crest 系列產品的由來。為此,我們需要先介紹一下 Nervana Systems 這家三年前被 Intel 收購的公司。
Nervana Systems 成立于 2014 年,是一家在 AI 尚未真正成為風口時就宣布做 AI 底層架構的初創公司,其投資人包括 DCVC、Lux 等頂級硅谷風投。2015 年,Nervana 在深度學習領域發布了其主要產品,即深度學習底層框架 Neon。Neon 是一個為深度學習仔細優化的底層框架,在算子層級擁有很高的效率。Neon 最初是運行在 Nvidia GPU 上,然而其性能比起 Nvidia 的親兒子 CuDNN 都要強不少。2015 年正是 Caffe 等深度學習框架火熱的時候,而 Neon 憑借其卓越的性能自然獲得了大家的關注。
在憑借 Neon 一炮而紅后,Nervana 在 2016 年初宣布了其更加野心勃勃的計劃,即 Nervana Cloud。在 Nervana Cloud 中,Nervana 將會把 Neon 框架運行在其為 Neon 專門優化的 Nervana Engine 芯片上。
Nervana 宣布這樣的組合將會實現 10 倍于 Nvidia Titan X 的性能。可以說,在大多數半導體公司對于 AI 還持觀望態度的 2016 年初,Nervana 宣布這樣大計劃可謂是站在了時代的前沿。而且,Nervana 對于市場的判斷非常準確:因為就在不久之后,AI 芯片就成為了為整個行業公認的風口,而 Nervana 也在 2016 年下半年被 Intel 以 4 億美元收購。在收購的時候,Nervana 并沒有發布任何芯片細節:我們可以估計在收購時,大概率 Nervana 還只有一個芯片架構設計,并沒有真正的芯片原型,更沒有芯片產品。
在 Nervana 被 Intel 收購之后,其產品也逐漸融入 Intel 的產品路線圖。然而,Nervana 預想中的 Nervana Engine 進度并不順利。在被收購后,Nervana Engine 重新定名為 Crest 系列。2017 年初,Intel 發布了 Nervana Lake Crest 的一些細節,并且宣布 2017 年上半年將會有芯片成品。到了 2018 年中,Intel 宣布 Lake Crest 只是一個試用版的原型產品,而正式的芯片產品命名為 Spring Crest,將會于 2019 年正式發售。在那個時候,Lake Crest 的性能指標為 12 核,32GB HBM 內存,峰值算力為 38TOP/s。
在 2019 年八月的 Hot Chips,Intel 又發布了 Nervana 芯片的相關更新:Nervana 將發售兩種芯片,一種是針對服務器端訓練應用的 Spring Crest NNP-T,它將具有 119TOPS 的峰值算力,并且通過 CoWoS 高級封裝技術實現多芯片互聯;而另一款則是針對邊緣計算的 Spring Hill NNP-I,功耗 10W,能效比為 4.6TOPS/W。然而,在 2019 年我們并未得到 Spring Crest 系列真正商用的消息,直到最近才得到它已經被取消的新聞。
Intel 在 2017 年發布的 Nervana Lake Crest 架構,擁有 Tensor-based architecture、Flexpoint、Silicon Interposer 等多個熱門詞匯
靠譜的 Habana
相比產品遲遲不能量產的 Nervana,來自以色列的初創公司 Habana 可以說是實在也靠譜多了。
Habana 的芯片分為兩個系列,即針對訓練的 Gaudi 系列和針對推理的 Goya 系列。與 Nervana 最大的不同在于,Habana 的兩個芯片系列目前都已經有成品芯片供客戶使用,目前據悉已經收獲了一些數據中心客戶的青睞。
Habana 的芯片架構可以用“實在”來概括。其架構并沒有用許多花哨的概念性技術——在技術白皮書中,Habana 直接明了地告訴大家其架構就是 VLIW SIMD,一種廣為人知的架構。
VLIW 和 SIMD 技術早在上世紀就已經提出,到今天已經擁有超過 20 年的歷史。其中,SIMD(單指令流多數據流)架構的核心是利用數據并行性,讓處理器只需要一條指令就能處理大量并行數據,該技術早已或多或少地應用在高性能計算處理器中(例如 GPU 使用的 SIMT 技術可以認為是 SIMD 技術的一種衍生)。SIMD 對于存在大量數據并行的深度學習來說非常合適,這也是 Habana 在其深度學習加速芯片中使用 SIMD 的主要原因。
VLIW 技術(超長指令字)則是另一個用于并行計算的重要技術,其核心是讓編譯器去找出在一個指令中能并行執行并充分利用處理器資源的多個計算操作。在通用計算時代,VLIW 曾遭遇了一次失敗(本世紀初的 Intel 的 Itanium 系列),因為在通用計算時代程序中會有大量的分支判斷,從而造成靜態編譯器難以預測可以并行操作的指令,造成性能損失。然而,VLIW 并未被人拋棄,在 20 年間 VLIW 在 DSP 等計算較為規整的應用領域獲得了一席之地,直到今天深度學習時代又重現江湖。在深度學習應用中,計算很規整,因此編譯器可以很好地預測操作并行性并作相應調度。而一旦使用 VLIW,則用于深度學習加速的處理器可以省去傳統超標量處理器中復雜的片上硬件調度模塊,從而可以把芯片面積留給真正用于計算的單元。
可以說 Habana 使用了兩個廣為人知(但是非常適合深度學習)的技術實打實地把芯片做了出來,并且在工程上把細節做到了完美。事實上,我們認為 Habana 芯片的工程量并不小,尤其是在硬件之外的軟件編譯器部分——因為 VLIW 需要一個非常高效的編譯器才能保證其性能,即使是在計算較規整的深度學習應用,做好這樣的編譯器也并不容易。
基于其扎實的產品,Habana 已經開始了與多個云端數據中心客戶的合作,并且于去年底被 Intel 收購。
Intel 需要什么樣的 AI 芯片產品
對于 Intel 來說,在錯過了移動計算之后,人工智能時代不能再錯過了。目前來看,Intel 在人工智能領域的終端計算(收購 Movidius)、邊緣計算和云端計算都有布局,但是重中之重還是利用 Intel 一直以來在云數據中心的強勢地位來確保打下云計算人工智能芯片市場。這也是它接連收購 Nervana 和 Habana 這兩家云端人工智能芯片公司原因。
那么,Intel 究竟需要什么樣的芯片產品呢?首先,Intel 需要一個能按時交付不跳票的產品。在這個時間點上,云端人工智能芯片在幾年內成為數據中心的剛需已成定局,如果 Intel 沒法在近期打破 Nvidia 的壟斷真正打入云端人工智能芯片市場,那么未來想要打入會越來越困難。更關鍵的是,目前云數據中心的幾大巨頭都在自己布局芯片,例如 Google 已經有了 TPU,Amazon、阿里巴巴自研的深度學習加速芯片也已經流片完成,騰訊也投資了本土的 GPU 初創公司燧原,因此如果等到幾年后云數據中心都開始使用自研芯片的時候,Intel 就更難打入這個市場了。這也是 Intel 使用已經有產品的 Habana 替代遲遲不能交付的 Nervana 最關鍵的原因。
其次,從技術上來說,云端芯片最關鍵的門檻在于可擴展性,即如何能保證云端芯片在大規模部署(包括一機多卡,多機等情形)的時候,其總體性能可以保持接近線性增長。可擴展性門檻高的原因是它是一個系統工程,并非是把單芯片性能做好就行了——要做到可擴展性,需要在設計芯片的同時就考慮其與其他芯片通信的能力,同時需要在軟件上也給予大量的支持才能讓整個系統的性能充分發揮。這事實上需要非常高的工程量,同時也需要團隊能對于整個分布式系統有深入的理解才能把系統做好。
我們看到,Habana 在這方面交出了令人滿意的答卷:Habana 的芯片上自帶 RDMA 模組,因此可以支持大規模的分布式計算;另外,在設計底層編譯器和軟件架構的時候也充分考慮了軟硬件協同系統設計,因此 Habana 的可擴展性非常好。根據官方公布的數字,其分布式總體性能甚至在處理器數量大于 600 的時候也能接近線性,從而比起同樣處理器數量的 Nvidia V100 GPU,其訓練性能提高了接近 4 倍,這是一個非常了不起的結果,其中必定包含了大量芯片和軟件/算法工程師的努力。
綜合以上的分析,我們認為 Intel 用 Habana Gaudi 系列產品代替原計劃中的 Nervana Spring Crest 可以概括為是“高質量系統工程的勝利”。之后 Intel 在云端人工智能芯片領域能否真正打開市場,讓我們拭目以待。
總結
以上是生活随笔為你收集整理的用Habana取代Nervana!英特尔为何这样做?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李彦宏内部信感谢员工和家属:做有温度的公
- 下一篇: 郭明錤:肺炎影响 下调iPhone Q1