牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!
戳藍字“CSDN云計算”關注我們哦!
作者 | 晶少
出品 | CSDN云計算(ID:CSDNcloud)
在黃仁勛看來,隨著摩爾定律消亡,GPU加速才是撬動未來高性能計算發展的有力杠桿。有數據顯示,目前NVIDIA已經銷售了超過15億塊GPU,而這些GPU由于采用了同一架構,均能兼容CUDA。
不僅僅如此,身著經典皮衣的黃教主更認為硬件的“登峰造極”不僅僅局限于芯片,只有軟件得到相應性能的完整優化,未來的多GPU才能彰顯最出色的處理能力。基于此,NVIDIA在CUDA平臺上配置了相當豐富的軟件庫,并且選擇在去年一整年推出了超過500個相應的SDK以及庫來不斷改進NVIDIA的軟件棧。有數據顯示,通過這些專門的SKU,NVIDIA的產品在過去三年的深度學習性能提升了4倍,而深度學習推理性能也相應提升了2倍。列舉如此多樣的軟件升級,要說目前實在硬核的NVIDIA軟件創新,當屬最新一代推理軟件開發套件NVIDIA TensorRT 7編譯器的推出。
晶少了解到,TensorRT作為一種計算圖優化編譯器能夠優化推理實現實時AI會話,將TensorFlow的輸出結果進行優化,簡單理解位可以高效尋找計算途中可以融合的節點,從而減少計算和內容的訪問來進行CUDA碼的優化,值得提及的是可以運行在任何GPU上。
“去年我們在中國發布了TensorRT 5,可以處理CNN,而且是在圖形的同一層將邊緣與節點融合;此外還支持自動檢測以及自動低精度推理,將FP32模型轉換成FP16或INT8模型,準確率保障的同時降低能耗。”對比TensorRT 5,如今TensorRT 7能夠支持1000多種不同計算變換和變化,借助于該軟件,全球各地的開發者都可以實現會話式AI應用,大幅減少推理延遲。而此前不容忽視的一點,巨大的推理延遲一直都是實現真正交互式互動的很大阻礙。
具體來說,TensorRT 7內置新型深度學習編譯器,能夠自動優化和加速遞歸神經網絡與基于轉換器的神經網絡,而這些日益復雜的神經網絡是AI語音應用所必需的。與在CPU上運行時相比,會話式AI組件速度提高了10倍以上,從而將延遲降低到實時交互所需的300毫秒閾值以下。除了支持CNN,TensorRT 7也支持RNN、Transformer等自動實現。對于所有RNN定制的內核甚至可以進行多個時間場景融合,在整個處理的工作流中,在不同的時間點來進行所需要的內存,以及處理工作量。
除了技術上的“高屋建瓴”之外,TensorRT 7.0還能輕松“搞定”會話式AI。黃仁勛對此表示:“我們已經進入了一個機器可以實時理解人類語言的AI新時代。TensorRT 7使這成為可能,為世界各地的開發者提供工具,使他們能夠構建和部署更快、更智能的會話式AI服務,從而實現更自然的AI人機交互?!?/strong>
關于此NVIDIA 負責TensorRT產品市場的Siddarth Sharma總結道:“實際上,NVIDIA著手會話式AI的技術加速工作已經有好幾個月的時間了。最初的版本只涵蓋了會話式AI中的一部分,也就是語言理解部分。通常這個攻克的過程需要三個部分:將識別的語音轉化成文字,理解的基礎上再轉化為語音播出。隨著我們不斷發布新版本,TensorRT 7基本上可以完成整個三流程的計算,即從語音識別到語義理解再到語音輸出。”
據晶少了解,其實會話式AI是技術難度很高的領域,想要完全攻克并為之所用就需做到要在300毫秒內將三個部分智能并完整達成,在這個過程中有很多的復雜模型被計算,所以Tensor RT也在不斷完善以保證覆蓋整個流程。
據悉,目前全球很多體量較大并極具創新的企業都已經使用了NVIDIA的會話式AI加速功能。在首批使用NVIDIA會話式AI加速能力的企業中,我們發現了阿里巴巴、百度、滴滴出行、美團、快手、平安、搜狗、騰訊和字節跳動等企業。搜狗首席技術官楊洪濤表示:“搜狗每天通過輸入法、AI硬件、搜索等產品為數億用戶提供語音、圖像、翻譯、對話以及問答等優質的AI服務,我們使用NVIDIA TensorRT推理平臺實現線上實時快速的服務響應,領先的AI能力顯著提升了我們的用戶體驗。”
此外在深度推薦系統應用方面,百度AIBox推薦系統以及阿里巴巴推薦系統均借助NVIDIA 的AI平臺實現計算加速。值得一提,在今年“雙11”期間,英偉達GPU為阿里巴巴推薦模型提供加速,實現了每秒處理780個查詢,遠高于CPU的3個?!霸诎⒗锇桶偷姆掌魃?#xff0c;一個‘雙十一’活動,每秒需要處理數十億次的推薦,使用GPU驅動的推薦系統,吞吐量(通量)可以比CPU提升上百倍。”同樣在云方向,滴滴還將基于NVIDIA 技術建設人工智能基礎架構,并適時推出不同型態的vGP云U服務器,其中包括計算型、渲染型和游戲型等。
“其實計算是一個非常重要的方式,而且可見情況下增長勢頭非常迅猛。目前我們的計算平臺與全球很多云服務提供商都進行了合作,例如AWS、Azure、谷歌云等,其中還包括國內的百度、滴滴、阿里云平臺等,所以我們在開發下一代產品時在開發者領域以及企業級方向,都很重視自身產品的技術質量。”NVIDIA 加速計算產品管理總監Paresh Kharya說。
可以肯定的一點,如今通過TensorRT的新型深度學習編譯器,全球各地的開發者能夠將這些網絡(例如定制的自動語音識別網絡以及用于文本-語音轉換的WaveRNN和Tacotron 2)實現自動化,并實現最佳的性能和最低的延遲。很重要的一點,TensorRT 7可以快速優化、驗證并部署經過訓練的神經網絡,還為超大型數據中心、嵌入式或汽車GPU平臺提供推理能力,目前TensorRT 7.0現在已經可被使用。
就在一月之前的丹佛2019全球超級計算大會(SC19)上,NVIDIA剛剛發布了一款參考設計平臺,使企業能夠快速構建GPU加速的ARM服務器。在本次GTC大會上,相關問題再次被提及,黃仁勛提出:“此舉是為了讓GPU能夠像支持x86平臺一樣支持ARM平臺。”
眾所周知,ARM是世界上最為普及的CPU,世界上約95%的定制SOC都是基于ARM,也被稱之為最可編配置的CPU。據了解在全球范圍內,共有1500億臺設備基于ARM架構,之所以如此成功,歸根結底是開放性使然,例如各種各樣的功能,包括互聯、內存、CPU內核、計算能力,包括多元化在內的支持,都使ARM成為現如今世界上非常重要的架構之一,給予用戶更多選擇。對此晶少觀察到,其實很多行業企業都在打造基于ARM的服務,原因或許在于傳統HPC高性能計算確實需要高效能的產出,另一方面確實整個世界都在擁抱云,而ARM確實與超大規模應用堪為“天生一對”。
“我們通過將CUDA平臺和ARM架構進行兼容,在整個加速計算領域,無論是AI、高性能計算等,都可以給到客戶更多選擇。之所以有這么大的性能提升,不僅是在架構上進行了設計,更重要的是我們通過軟件的方式使得性能進一步提升。有數據顯示,僅僅通過軟件就使得AI計算性能在兩年之間提升了4倍,所以軟件對加速計算的性能提升非常重要,未來我們會繼續在醫療領域Clara平臺,應用在自動駕駛領域的Drive以及機器人方向的Isaac等各個平臺上對軟件進行完善以提升性能?!?/p>
具體來說,通過PCI Express為ARM提供與X86平臺同等的支持,輕松針對ARM進行CUDA編譯;而且CUDA本身擁有一個諸多開發人員構成的龐大生態系統,當支持ARM時候,這些開發人員也開始支持ARM。不容忽視的一點,基于對ARM平臺的支持,超級計算中心、超大型云運營商和企業能夠將其加速計算平臺的優勢與最新的ARM服務器平臺相結合,高效滿足高性能計算(HPC)社區對于類型更加多樣化的CPU架構日益增長的需求。
另外在今年的GTC的大會上,NVIDIA按照慣例爆出了未來計算機圖形的技術,即實時光線追蹤NVIDIA GeForce RTX的最新進展。
RTX可以用更為自然的方式模擬光線、反射等,讓現代計算機圖形技術變得更加有魅力,而NVIDIA在最新的圖靈架構中正是搭載了這項技術,實現對于現實光照的完美還原并帶來逼真的游戲環境。會上,NVIDIA演示了擁有3億多玩家的《我的世界》的光追版本,開啟RTX之后《我的世界》營造了一個真實的游戲世界;還官宣包括《邊境》、《鈴蘭計劃》、《暗影火炬》、Project X、《無限法則》以及《軒轅劍柒》等六款游戲將會支持光線追蹤。
“NVIDIA處在圖形、HPC和AI的交匯領域?!边@或許是對本次GTC黑科技的最簡潔直觀的詮釋。
福利掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習! 推薦閱讀:你每天都在使用的HTTP協議,到底是什么鬼?
龍芯新款處理器發布;Citrix 產品曝“驚天漏洞”,影響全球 8 萬家公司; AMD發布年度5大里程碑 ……
Hinton、吳恩達們也“吹牛”炒作?媒體和研究人員共謀,AI圈誤導信息泛濫
你的 App 在 iOS 13 上被卡死了嗎?
2019 最爛密碼排行榜大曝光!網友:已中招!
不用失去控制權和所有權,也能在區塊鏈中通過數據共享獲得獎勵?
真香,朕在看了!
總結
以上是生活随笔為你收集整理的牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云+X案例展 | 电商零售类:云徙助力良
- 下一篇: 一个数据科学家需要哪些核心工具包?