谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
??新智元報道??
來源:github
谷歌在最新發布的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一個新的預訓練模型:T5。該模型涵蓋了問題解答,文本分類等方面,參數量達到了110億!一舉超越ALBERT,刷新Glue榜單,成為全新的NLP SOTA預訓練模型。
榜單地址:
https://gluebenchmark.com/leaderboard
甚至在GLUE的升級版SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成為僅次于人類基準的SOTA模型!
榜單地址:
https://super.gluebenchmark.com/leaderboard
T5:穩健推進,暴力碾壓
從論文中我們了解到,谷歌的T5模型沒有用到什么新的方法,而是從全面的視角來概述當前 NLP 領域遷移學習的發展現狀。不過谷歌能讓110億參數跑在seq2seq模式上,并且一舉超越現有最強模型成為新SOTA,證明了該方式的可行性。
因此本次T5算不上出奇制勝,而是像一個巨大的戰艦一樣,穩健推進暴力碾壓,在摘要生成、問答、文本分類等諸多基準測試中都取得了 SOTA 性能。
作為一個文本到文本的統一框架,可以將同一模型、目標、訓練流程和解碼過程,直接應用于實驗中的每一項任務。研究者可以在這個框架上比較不同遷移學習目標、未標注數據集或者其他因素的有效性,也可以通過擴展模型和數據集來發現 NLP 領域遷移學習的局限。
谷歌編寫的通用知識訓練語料庫中的片段來自Common Crawl網站,該項目每個月從網絡上爬取大約20 TB的英文文本。
為了過濾出亂碼、菜單和錯誤消息,僅保留以終端標點符號(句點,感嘆號,問號或結束引號)結尾的文本行,同時刪除帶有明顯填充文本和重復項的頁面。最終所得到的集合比預訓練的數據集大了一個數量級,約為750GB。該數據集Colossal Clean Crawled Corpus(C4)已開源。
T5模型構造
研究人員在語料庫上訓練了幾種基于Transformer的模型,以評估其文本到文本方法的有效性。
研究人員使用的編碼器-解碼器 Transformer 基本依照了原版 Transformer 架構。解碼器包含了一堆“塊”,其中每個塊又包含兩個子部件:自注意力層和小的前饋網絡。
自注意力不受順序的影響,因此就可以將明確的位置信號提供給Transformer,如今比較流行的做法是使用相對位置嵌。相對位置嵌入和固定嵌入的方式不同,它是根據自注意力機制,對比key和query之前的偏置,生成一個不同的學習到的嵌入,權重是動態的。
論文提到的所有的模型都使用了32個嵌入,范圍的大小能夠以對數方式增加,最高能到128偏置。研究人員還使用了一種簡化的位置嵌入來提高效率,每個嵌入只是作為添加到用于計算注意力權重的相應logit的一個標量。
不過團隊也承認,T5在諸如翻譯之類的語言任務中不盡人意,研究人員將此歸咎于特定任務數據的相對缺乏和培訓規模的不足。因此,他們提倡研究使用較小的模型實現更強性能的方法,以便將遷移學習應用于影響最大的地方。
該論文的合著者寫道:“我們的研究得出重要的結果是:較大的模型往往表現更好。用于運行這些模型的硬件一直在變得越來越便宜,功能越來越強大,這一事實表明,擴大規模可能仍然是實現更好性能的有前途的方法。但是,在某些應用程序和場景中,總是存在使用較小或較便宜的模型有幫助的情況,例如在執行客戶端推斷或聯合學習時。”
大模型攻堅、小模型掃尾。NLP模型在SuperGLUE上徹底超越人類的一天,還遠嗎?
論文鏈接:
https://arxiv.org/abs/1910.10683 Github?
GitHub鏈接:
https://github.com/google-research/text-to-text-transfer-transformer
推薦閱讀總結
以上是生活随笔為你收集整理的谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: C语言入门项目——BMI指数计算器
 - 下一篇: PPT学习(5)