【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!
卷友們好,我是rumor。
我直接好家伙。
午休摸魚(yú)時(shí)打開(kāi)Arxiv看每日更新,一下就被閃瞎了。
英偉達(dá)、斯坦福聯(lián)合MSR,共同訓(xùn)出了10000億參數(shù)的GPT,比1750億的GPT3還高出了一個(gè)量級(jí)。
重要的是,這個(gè)訓(xùn)練用了3072個(gè)A100,一個(gè)售價(jià)約10萬(wàn)人民幣,我都不敢換算。
Anyway,人窮志不窮,訓(xùn)不起,論文我還看不起嗎?
題目:Efficient Large-Scale Language Model Training on GPU Clusters 地址:https://arxiv.org/pdf/2104.04473.pdf 代碼:https://github.com/nvidia/megatron-lm這篇論文講了啥
這篇文章其實(shí)很工程,主要延續(xù)威震天的一些策略,繼續(xù)探索了更大模型的分布式訓(xùn)練。
數(shù)據(jù)并行的方法很多同學(xué)都知道,就是每個(gè)worker上都加載全量模型,計(jì)算完不同數(shù)據(jù)后匯總更新。但在訓(xùn)練大模型的過(guò)程中,因?yàn)閰?shù)量的增多,不可避免的得進(jìn)行模型并行,也就是把不同的層或者tensor放在不同機(jī)器上,這就需要server、GPU之間進(jìn)行更多通訊,而由于各種原因,各種成本(比如通信時(shí)間、同步時(shí)間)都會(huì)呈幾倍增長(zhǎng),直接影響到訓(xùn)練速度。
所以,如何組合各個(gè)分布式訓(xùn)練方法,最大化訓(xùn)練吞吐、同時(shí)保持訓(xùn)練效果是訓(xùn)練大模型的難點(diǎn)之一。
經(jīng)過(guò)努力,英偉達(dá)成功地讓通信速度的增長(zhǎng)接近線性,效率比DeepSpeed框架高出不少。
遺憾的是,作者并沒(méi)有展示這個(gè)語(yǔ)言模型的效果。
但從GPT3的成功來(lái)看,驚喜還是會(huì)有的,估計(jì)又要等到OpenAI來(lái)揭開(kāi)了。
這樣下去會(huì)被榨干嗎
前段時(shí)間我一度覺(jué)得做更大更強(qiáng)的模型這條路是不可行的,一是以這種暴力方式訓(xùn)下去總有飽和的時(shí)候,二是即使浪費(fèi)那么多資源訓(xùn)出來(lái)的模型在實(shí)際場(chǎng)景也用不上。
但我今天又有一些新的思考,雖然預(yù)見(jiàn)大transformer模型的表現(xiàn)可能會(huì)有飽和的一天,但目前并不知道這個(gè)天花板在哪里,說(shuō)不定我們現(xiàn)在還在山腳或者山腰上,這些資金耗費(fèi)巨大的預(yù)訓(xùn)練去探索上界還是有價(jià)值的。另外,GPT-3已經(jīng)在一些場(chǎng)景上進(jìn)行落地了,我甚至想能不能直接輸入任務(wù)描述,讓GPT-3給我輸出一批訓(xùn)練數(shù)據(jù),說(shuō)不定也可以。
方向不同,各有千秋。不斷突破現(xiàn)有模型的天花板是有價(jià)值的,做出性價(jià)比高的小模型也是有價(jià)值的。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 搜狐视频怎么投屏
- 下一篇: 温州大学《深度学习》课程课件(四、浅层神