有关 AI PC,英伟达都做了些啥?顺便展望明年的电脑
今年 8 月的 SIGGRAPH 大會上,黃仁勛在演講中給了個演示,給 AI 輸入一張工廠規劃的 2D CAD 平面圖 —— 這張平面圖就只是個 PDF 文檔,然后跟生成式 AI (Generative AI) 講幾句話、提幾句需求,AI 就能輸出一個完整的 3D 虛擬工廠 —— 或者用現在流行的話來說,叫工廠數字孿生 —— 包括工廠倉庫地面材料、廠房布局等,基于 OpenUSD 3D 格式的模型。
這個以前需要投入相當人力物力和時間的工作,現在 AI 能在很短的時間里完成。當然具體的實現細節還是待調整的,但這個演示讓我們看到了,生成式 AI 在行業應用中的潛在價值,是突破了 ChatGPT、Stable Diffusion 這些爆款的;當然還有就是這個新晉入主市值萬億俱樂部的英偉達,在現如今的 AI 市場有多么風生水起。
我們今年接觸的不少 AI 芯片企業,乃至 IP 供應商普遍都在說,數據中心的 AI 訓練市場已經被英偉達雄踞了,這部分市場很難再被撼動:比如驅動 ChatGPT、new Bing 這類云服務的算力基礎;以及各類大模型的訓練,就是英偉達 A100, H100 之類的芯片。
但對整個行業來講,生成式 AI 這個東風可不能都被英偉達都給借走了:云市場搶不過你,那咱還不能搞搞邊緣推理市場嗎? 所以今年從上至下不同層級的企業都在宣傳邊緣,乃至端側的生成式 AI。
從廣義的“邊緣”概念來看,不光是邊緣數據中心、企業網關這些邊緣,端側市場上 Intel 已經宣傳了大半年的 AI PC,聯發科則在年底收官前發布了能跑生成式 AI 的手機 AP SoC,甚至還有一些搞嵌入式芯片的企業也在談生成式 AI。
但實際上即便是邊緣市場,英偉達也是有自己的殺手锏的,拋開各類 Jetson 芯片、IGX 平臺這些更偏行業和企業應用的邊緣不談,英偉達在 PC 端的 GeForce 顯卡不就是現在個人用戶做 AI 研究,以及 AI 技術愛好者使用最廣泛的平臺么?
其實自疫情結束后,PC 市場開始呈現出頹勢之際,PC 行業的主要市場參與者就開始了 AI PC 的宣傳。現在看來,生成式 AI 大概的確會成為接下來這一波讓 PC 市場再度上揚的大熱門。市場上談 AI PC 最大聲的,現階段顯然就是 Intel 及各 OEM 企業了。但實際在包括 CUDA 生態在內的 Nvidia AI 全棧構建 AI 生態最久,大概也最有資格說 AI PC 的,應該就是英偉達本達了。
今年 9 月,英偉達發布了開源的 TensorRT-LLM,這是個專用于 LLM 大語言模型推理的工具,特點是能夠加速 LLM 的推理性能 —— 不過當時主打的仍然是為 H100 推理加速。10 月份 TensorRT-LLM for Windows 版本發布,主要是實現了裸金屬 Windows 平臺的單卡 GPU 推理,重點是特別明確了對 GeForce RTX 40 系顯卡的支持,使 PC 生成式 AI 速度提高 4 倍。與此同時,TensorRT 加速也已應用于熱門應用 Stable Diffusion WebU 中,將生成式 AI Diffusion 模型的速度提升 2 倍。這就顯然有著意 AI PC 的意思了,大概可以說是正式打響英偉達在 AI PC 戰役的開端,即便英偉達從來不是最近才開始在 PC 上做 AI 的。
我們來展開看看在 AI PC 這個概念上,尤其生成式 AI 加速,英偉達都有哪些東西。順便聊聊 AI PC 是不是真的有價值。
GeForce 顯卡的生成式 AI 實現基礎
想在端側 AI 市場分一杯羹的市場玩家還是很多的,比如 Intel 要在新一代面向 PC 的 Meteor Lake 處理器中加入專門的 NPU 加速單元,AMD Ryzen 處理器現在還有專門的 Ryzen AI 品牌概念宣傳,聯發科的天璣 9300 手機芯片內部的 AI 單元特別集成了所謂的“生成式 AI 加速引擎”... 響應的 OEM 廠商就更多了,微軟也期望能在這一局里做 AI / ML 的標準制定者。
顯然,在去年底今年初以 ChatGPT 為代表的生成式 AI 再度引爆 AI 市場以后,主要的市場參與者對端側 AI 是抱著巨大的期望的。其實強調端側或者本地 AI 推理的原因很好理解:第一是如文首所述,這么好的技術和熱點可不能英偉達一家獨美,大家都要分蛋糕;第二是本地 AI 推理有著云無法比擬的一些優勢。
這些優勢應該已經老生常談了,無非就是云和邊緣兩側各自的優缺點,這些優勢再搬到 AI 上來:包括數據安全與隱私,延遲需求,以及無法確保實時的云連接等。不過實際上對 AI 而言,像 ChatGPT、Midjourney 這類面向大眾的云 AI,相比于本地部署 AI 模型還有個巨大的弱勢,即不能根據個體需求做定制。
如果把視野放寬到消費市場以外,AI 走向邊緣也因此成為必然:起碼企業一定需要邊緣 AI 來提升生產力,這也是我們預判明年生成式 AI 發展的模式走向。對個人用戶來說,無論是做科學研究,還是用于具體的生產力,端側本地的 AI 也有可定制和更為自由靈活的優勢,比如說用 Stable Diffusion 這類復合式模型畫小姐姐的需求,在 Midjourney 上有被拒絕服務的可能 (不是)...
作為云上 AI 的王者,英偉達在端側,尤其具體到 PC 端又有什么樣的儲備呢? 絕大部分同學應該都知道,英偉達從 Turing 架構開始給 GeForce RTX GPU 加入了 Tensor Core,也就是可加速 AI 運算的專用硬件單元。與此同時,2021 年的秋季 GTC 上,黃仁勛在主題演講中就多次強調了 Transformer 的價值,以及 LLM 的潛力。
次年英偉達發布 Hopper 架構的 H100 加速卡,就果斷引入 Transformer Engine 庫,搭配新一代的 Tensor Core 硬件以數倍提升 Transformer 模型處理的性能。當時在 GPU 上做明確更偏專用的加速,看起來還是挺大膽的。同年 10 月,對應的 Ada Lovelace 架構的 GeForce RTX 40 系 GPU 發布,很自然的也有了 Transformer 引擎支持 —— 雖然它只是個圖形卡。
Dall-E, ChatGPT 在全球范圍內的爆發實際上是在 Hopper 和 Ada Lovelace 加入 Transformer 引擎以后。當然 LLM 和 Stable Diffusion 這類大模型的火熱還是趨勢使然,只不過英偉達能在熱點引爆以前就著力于硬件部署,然后在今年的 GTC 上英偉達很自然地播放了一段此前黃仁勛將 DGX 交給 OpenAI 的名場面。很快英偉達的市值就飆升萬億了。這前瞻水平的確不可謂不高...
這里我們再稍微談一談 Transformer 和生成式 AI 究竟是什么關系。Transformer 在結構上采用一種所謂的自注意力 (self-attention) 機制,捕捉全局相關性、在一個隊列內不同 element 的關系。Transformer 最早主要適用于 NLP (natural language processing,自然語言處理),因為其自注意力機制能夠讓隊列中每個 element 與其他所有 element 相關聯,模型就能基于 element 關聯上下文,來權衡其重要性。
說點人話,GPT 就是 Generative Pre-trained Transformer 的縮寫,基于或部分基于 Transformer 是很符合這種模型特性的。LLM 大語言模型普遍是基于 Transformer 結構,比如 ChatGLM,比如 Llama,這兩年都挺火。
另外,原本 CNN 卷積神經網絡和 Transformer 的工作領域是有差別的,前者被認為更適合做圖像分類、對象識別之類的工作。但后來谷歌發了個 paper,說把圖像切割成小片,每一片當成一個單字、token,則也能以較高精度來學習如何識別對象,達成不錯的并行度和靈活性,令 Transformer 也適用于大規模圖像識別、CV 工作。Diffusion 模型就有基于 Transformer 的嘗試。
也不用去細究 Transformer 和 Diffusion 是個什么關系,發展潛力如何。英偉達此前在發布 L40 和 RTX 6000 GPU 時,就特別強調了 Stable Diffusion 出圖 (推理) 性能提升 —— 這倆也都是基于 Ada Lovelace 架構的,只不過和 GeForce 的市場定位不同。
所以總的來說,英偉達在 AI PC 硬件層面的準備工作是比其他競爭對手快了幾個身位的 —— 雖然這一點似乎主要還是依托于英偉達在數據中心 AI HPC 領域的先期成功 —— 當然在生態上就涵蓋了已經十多年歷史的、讓 GPU 能夠做各類通用計算的 CUDA,及其后 AI 作為一部分的布局了。
工具與生態:生成式 AI 本地推理要提速
在 AI 訓練和推理的問題上,大量市場研究數據都表明推理的市場一定是更大的 —— 施耐德電氣的數據是,從用電量的角度來看,全球范圍內 AI 訓練和推理功耗,兩者現在的比例大約是 2:8; 未來還會更進一步偏向推理側。所以很顯然英偉達是不會放過推理市場的。
我們每次和 ChatGPT 說上一句話,ChatGPT 就要進行一次 AI 推理 (inference); 每次 Stable Diffusion 出圖個小姐姐,也就在本地進行了一次 AI 推理。這兩者的算力量級還是不一樣的。今年的春季 GTC 上,英偉達有特別面向 LLM 推理發布過一款 H100 NVL,著眼的是需求較大算力需求的推理。
至于 PC 端側,和數據中心顯卡一樣,大家都是 Ampere 或 Ada Lovelace 架構,基于英偉達構建的軟件棧,用 GeForce RTX 顯卡做 AI 推理也是水到渠成。而且似乎 PC 行業媒體做顯卡評測時,前兩年就已經把 Stable Diffusion 的本地推理納入考量范疇了 —— 大部分主要是基于 Stable Diffusion WebUI (A1111,能跑 Stable Diffusion 的一個 GUI 圖形用戶界面)。用 GeForce RTX 顯卡跑 Stable Diffusion WebUI 的基礎當然是 CUDA。
所以最早有“AI PC”實現基礎的就是英偉達,畢竟其生態和軟件棧的布局,以及社區發明的各類玩法算是相當早了。Intel 從今年初開始推 AI PC 的概念,事實上是比英偉達晚了不少的。我們之前一直說 Intel 的軟件工程師今年加班應該會很多,雖然 Intel 很大程度借助了開源社區的力量,但是把全棧搭得像模像樣,讓 Stable Diffusion 及各類 LLM 模型跑在自家 CPU 和 GPU 上,的確還是下了不少功夫的:無論是年初能跑起來,還是下半年的優化工作。
感覺今年 10 月,英偉達是明確開始更重視 AI PC 這個議題了。10 月份英偉達親自下場為 Stable Diffusion WebUI 做了個 TensorRT 擴展。TensorRT 是啥呢? 這里的 RT 是 runtime 的意思,所以它首先是 AI 應用部署的一個 runtime 庫;另外這也是個推理優化工具 —— 它給出 API 和分析器,導入 AI 模型,然后生成優化過的 runtime 運行時引擎。
換句話說,這個 TensorRT 插件,是讓 AI 模型在 Stable Diffusion WebUI 里面跑 (推理) 得更快了。B站up 主 Nenly 給出的實測數據是 AI 推理性能提升 3 倍,也就是用 Stable Diffusion 畫小姐姐比之前沒有 TensorRT 插件要快 3 倍吧;英偉達給的數據是,這個插件跑在 GeForce RTX 4090 上,Stable Diffusion 推理速度比 M2 Ultra 快了 7 倍 (也算是欺負蘋果的生態了), 正式讓 AI 生圖進入秒速時代。
Stable Diffusion TensorRT 實測成績 by Nenly 同學
其實 TensorRT 這個工具本身的引入也有些年頭了,遙想 2019 年和更早的年份,這個中間件的版本迭代還是 GTC 歷年更新的熱點。
而 9 月發布的 TensorRT-LLM 顯然就是基于 TensorRT 的,后綴 LLM 則是大語言模型。Github 上給出的定義是,TensorRT-LLM 為用戶提供易于使用的 Python API 來定義 LLM,并構建包含高水準優化的 TensorRT 引擎,在英偉達 GPU 上執行高效的推理 (另外也包含能夠跑 TensorRT 引擎的 runtime 組件)。
英偉達將其定義為,令生成式 AI 應用投入生產的主干 (backbone)。簡單來說也就是能夠為 LLM 推理加速、優化的工具。英偉達的宣傳資料中提到 TensorRT-LLM v0.6.0“帶來至高達 5 倍的推力性能提升,并支持更多熱門的 LLM”。
英偉達官網介紹中還特別提到 TensorRT-LLM 有利用 FastTransformer—— 這是英偉達針對 Transformer 模型開發的優化庫。從這些組成部分來看,TensorRT-LLM 也算得上是集合多年經驗的成果。用英偉達在 Q3 財報電話會議上的話來說,就是“我們投入安裝基礎 (installed base) 20 多年了;任何時間你看到英偉達 GPU,它都跑我們的棧”,當然也包括 GeForce。
10 月份,TensorRT-LLM for Windows 發布,明確了對于 GeForce RTX 單卡推理的支持。這東西和 Stable Diffusion WebUI 的 TensorRT 插件算是同時發布,怎么看都有要把 AI PC 真正做起來的意圖。宣傳中提到 TensorRT-LLM for Windows 使 PC 生成式 AI 速度提高 4 倍。
在 PC 本地跑生成式 AI 也會因此變得更實用,包括 Llama 這類比較流行的 LLM 模型,有興趣的同學可以嘗試在本地部署。具體是做 LLM 研究,還是用來聊天、寫文案、寫代碼、查資料,或者和別的技術再做結合,那就是 PC 端用戶及開發者要思考的問題了。
這部分最后再談一點:在 PC 端的 AI 軟件棧尚未真正統一的情況下,微軟的 AI API 也是很值得觀察的,比如 DirectML。DirectML 算是 DirectX 12 的組成部分,是微軟以操作系統供應商的身份給出的機器學習 API,現在對大部分芯片廠的 GPU 都提供 AI 加速支持,通用性更好。像 Stable Diffusion WebUI 也有 DirectML 版,只不過效率上可能會略差于芯片廠給的專用 API。
這次英偉達也和微軟一起特別為跑在 DirectML API 上的 Llama 模型做了優化,英偉達可能主要是做了 GPU 驅動層面的優化。這也算是 AI PC 生態構建的多面出擊吧。
擁抱生成式 AI,擁抱 AI PC
其實邊緣、端側 AI 也未必得限定在生成式 AI 上。雖然“AI PC”這個概念主要是今年才被提出的,但 PC 平臺應用 AI 技術卻應該是自英偉達 Turing 架構 (RTX 20 系顯卡) 引入就開始的,要不然 Tensor Core 出了這么多年,用來干啥呢?
PC 游戲中的 AI 深度學習超級采樣技術 DLSS,就屬于典型的 AI 在游戲領域的應用:很多像素都不是靠 GPU 圖形單元渲染出來的,而是靠 AI 生成的 ——DLSS 3 都開始生成幀了,3.5 都開搞光線重建了,這些都是 AI 在做的。
還有像是最近更新的 RTX VSR 視頻超分辨率,將低分辨率的流播畫面通過 AI 超分為高分辨率,新版本據說還能在原始分辨率播放內容時,消除畫面偽影和壓縮失真...... 加上英偉達還有視頻會議眼神注視、畫面超分等 AI 技術與特性,此類技術都應該算是 AI PC 的組成部分,即便它們并不算是生成式 AI。
而生成式 AI 的到來則必將加速 AI PC 對于 AI 技術的深入應用。有關生成式 AI 在 PC 平臺的應用問題,預計隨著生成式 AI、大模型自身的發展,我們在明后年就能找到答案,大概率會有對應的殺手級應用出現,就看開發者們天馬行空的創意了。
ChatGPT 引爆市場以來,大眾討論最多的一個問題似乎是生成式 AI 要搶占人類的工作和地位了,我們是不是要失業了? 在機械重復性工作的確可能面臨時代淘汰的危機下,這個時代愿意擁抱生成式 AI 的,也大有人在。而他們是真正將生成式 AI 作為生產力工具,引導自身和時代未來發展的一批人。
趙恩哲
比如最近首位獲得雨果獎的華人藝術家趙恩哲就以自己的手繪設計為基礎,借助 GeForce RTX 顯卡,用 Stable Diffusion 創作了主題為《虛空之舟》的作品。趙恩哲說:“從游戲電影行業產品的角度,用 AI 與算力降本增效來賦能開發,這是值得肯定的。我個人喜歡手繪未來感的戰艦,更希望將這些戰艦與我心中的世界變成一部大片,一部游戲,原來靠我一個人的生產力是不太可能實現的。”
“現在有了 AI 輔助創作工具,可以基于我的想象力,給到我各種技術實現的可能性,原來要實現現在的結果至少需要很多工作者,幾個月的努力,現在卻在幾秒鐘內呈現在我的面前。”這個例子應該是頗具代表性的,藝術家將 AI 與算力變成自身想象力擴展的工具。
虛空之舟
回到 AI PC 的話題。其實從高維度的系統層面來看,雖說現階段 PC 行業幾個主要市場競爭者的芯片跑生成式 AI 的上層軟件棧差別非常大,但最終都是為知名的大模型服務。就系統層面來評判各家跑 AI 的效率是可行的,比如說在所有層級都達成芯片企業部署的最高優化水平時,用 Stable Diffusion 生成圖,看各家芯片和軟件需要多久。
明年我們應該能看到這樣的比較,對幾家主要競爭者而言都會是考驗。先預測一波,就英偉達在這個領域的多年積累,即便不說芯片架構水平,軟件棧和生態的實力應該都足夠 GeForce RTX GPU 在這類競爭中拔得頭籌。對于生成式 AI 所需的大模型而言,算力仍然是必須的資源,而生態是高效利用資源的保障。
在 PC 行業的新一輪革命中,擁抱生成式 AI 的 AI PC 在當下才真正具備了競爭力。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的有关 AI PC,英伟达都做了些啥?顺便展望明年的电脑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跑车、SUV登台!比亚迪仰望品牌暨易四方
- 下一篇: 畅玩游戏无忧 倍思氮化镓桌面快充充电器