别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!
文 | Yimin_飯煲
編 | 煉丹學(xué)徒
如果評選NLP圈的2020年度十大關(guān)鍵詞,那么GPT-3(Language Models are Few shot Learners) 一定榜上有名。
GPT-3龐大的參數(shù)量,優(yōu)異的性能至今仍讓圈內(nèi)圈外人都津津樂道,而OpenAI發(fā)布的OpenAI API,更是為自然語言處理技術(shù)的大規(guī)??蓴U展商業(yè)應(yīng)用提供了一個極有前景的方向。不過,作為NLP研究者,我認為GPT-3對前沿研究的最大貢獻是,展現(xiàn)了 Prompt-tuning 技術(shù)在通用任務(wù)(特別是零樣本和小樣本場景下)上的應(yīng)用潛力。在GPT-3之前,Prompt-tuning 大多僅被用來探索語言模型中蘊藏的世界知識,而GPT-3之后,Prompt-tuning 就“登堂入室”,被用到了各種類型的NLP任務(wù)上(甚至還有多模態(tài)任務(wù)、代碼分析任務(wù)),成為了近兩年來發(fā)Paper的一個熱點。不太熟悉 Prompt-tuning 的讀者可以參考CMU最新發(fā)布在arxiv上的綜述 (Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing)。
賣萌屋之前也轉(zhuǎn)載過該論文的中文解析 《Fine-tune之后的NLP新范式:Prompt越來越火,CMU華人博士后出了篇綜述文章》
Prompt-tuning 和GPT-3互相成就,成為了NLP發(fā)展歷史中不可忽略的里程碑?;?Prompt-tuning 讓GPT-3處理各種類型的任務(wù),固然取得了不錯的表現(xiàn),但仔細想想,GPT-3這樣一個創(chuàng)造了各種奇跡的巨大模型,是否還有 更大的零樣本和小樣本學(xué)習(xí)能力 尚未挖掘?Prompt-tuning 一定是利用GPT-3的最好方式嗎?Google的研究員們不甘心止步于此,提出了 instruction-tuning ,利用比GPT-3更少的參數(shù)量,在25個任務(wù)中的19個上顯著超越GPT-3,告訴世界:GPT-3, 還能更強!
論文題目:
Finetuned Language Models Are Zero-Shot Learners
論文鏈接:
https://arxiv.org/abs/2109.01652
方法:FLAN
谷歌的研究員們將自己的方法取名為FLAN (Finetuned LANguage Models are zero-shot Learners),相比于GPT-3(LANguage Models are zero-shot Learners),區(qū)別在于Finetune. FLAN的核心思想是,當(dāng)面對給定的任務(wù)A時,首先將模型在大量的其他不同類型的任務(wù)上進行微調(diào), 微調(diào)的方式是將任務(wù)的指令與數(shù)據(jù)進行拼接(可以理解為一種Prompt), 隨后給出任務(wù)A的指令,直接進行推斷。具體示例可見下圖。
例如,我們的最終目標(biāo)是推理任務(wù),FLAN首先講語言模型在其他任務(wù)上進行微調(diào),包括給定任務(wù)指令的翻譯、常識推理、情感分類等。在面對翻譯任務(wù)時可以給出指令“請把這句話翻譯成西班牙語”。在面對常識推理任務(wù)時可以給出指令“請預(yù)測下面可能發(fā)生的情況”,而當(dāng)模型根據(jù)這些“指令”完成了微調(diào)階段的各種任務(wù)后(將指令拼接在微調(diào)數(shù)據(jù)的前面),在面對從未見過的最終需要的自然語言推理任務(wù)的指令“這段話能從假設(shè)中推導(dǎo)出來嗎?” 時,就能更好地調(diào)動出已有的知識回答問題。
在GPT-3等研究Prompt-tuning的工作中,研究者們發(fā)現(xiàn)Prompt的質(zhì)量對模型的性能有著較大的影響,因此產(chǎn)生了Prompt Engineering這一技術(shù),通過選取更好的Prompt**讓模型取得更好的表現(xiàn)。谷歌的研究者們同樣為每一類任務(wù)手動設(shè)計了10個 不同的指令 。以自然語言推斷任務(wù)為例,如下圖所示。
實驗結(jié)果
實驗設(shè)置
作者們選取了12類共計62個常見的自然語言處理和生成任務(wù)開展實驗:
作者們訓(xùn)練了一個大小為137B的自回歸語言模型(Base LM) 作為基準(zhǔn)語言模型。通過簡單的重采樣方法,作者們讓不同大小的數(shù)據(jù)集在總的微調(diào)語料中占比相對平衡。在微調(diào)時,對每一個輸入樣本都隨機選取該類任務(wù)十條指令中的一條以增加模型的多樣性。為了保證實驗對比的公平性,當(dāng)評測在某一個任務(wù)(例如RTE)上的表現(xiàn)時,所有的同類別數(shù)據(jù)集(例如:SNLI,WNLI,MNLI...)和一些強相關(guān)類別的數(shù)據(jù)集(例如Paraphrase)將不會在微調(diào)階段出現(xiàn)。
作者們使用了T5-11B和GPT-3作為基線模型。對于FLAN方法,作者同時給出了在目標(biāo)任務(wù)上選擇隨機指令(no prompt engineering) 和在目標(biāo)任務(wù)驗證集上最優(yōu)指令(best dev template)
結(jié)果
作者們發(fā)現(xiàn),FLAN這一方法在與指令更相關(guān)的任務(wù)上表現(xiàn)更好(例如自然語言推斷,問答), 而在與常識更相關(guān)的任務(wù)上表現(xiàn)較為普通。
在自然語言推斷任務(wù)和問答任務(wù)上,FLAN在零樣本場景下就已經(jīng)超過了小樣本GPT-3的效果,在許多任務(wù)上甚至與有監(jiān)督模型達到了相當(dāng)?shù)谋憩F(xiàn)。
在大多數(shù)常識推理任務(wù)上,FLAN相比于GPT-3的表現(xiàn)基本沒有提升。作者們認為主要原因是常識推理任務(wù)對指令的依賴較小。大多數(shù)常識推理任務(wù)可以直接轉(zhuǎn)化為語言模型的形式,因此僅需要基于簡單的Prompt就已經(jīng)可以達到很好的表現(xiàn)。在作者們給出的原因之外,筆者認為另一個可能的原因是,其他任務(wù)很難提供常識推理所需要的通用世界知識,進行微調(diào)反而可能影響原有語言模型中涉及到常識的參數(shù),損害泛化性能。
在翻譯任務(wù)上,零樣本場景下的FLAN明顯優(yōu)于GPT-3,但相比于小樣本GPT-3的表現(xiàn)仍然有差距。
作者們還研究了增加指令微調(diào)階段任務(wù)的數(shù)目對FLAN模型效果的影響。結(jié)果表明,隨著指令微調(diào)任務(wù)數(shù)目的增加,模型在各種任務(wù)上都能夠取得更好的表現(xiàn)。
作者們同時研究了模型大小對FLAN模型效果的影響,一個有趣的現(xiàn)象是,當(dāng)模型的大小較小時,指令微調(diào)反而會讓模型的表現(xiàn)變差。作者認為的原因時,當(dāng)模型較小時,在大量的任務(wù)上做指令微調(diào)會“填滿”模型的容量,損害模型的泛化能力,使得模型在新任務(wù)上表現(xiàn)較差。
結(jié)語
熟悉NLP相關(guān)領(lǐng)域的同行們,也許會認為這篇文章又是一篇“A+B”的工作(A= Prompt-tuning, B= Multi-task Learning).基于Prompt的工作正值大熱的時期(你敢相信九月的第一周就有四篇和Prompt有關(guān)的NLP論文掛Arxiv嗎~),而通過在不同種類的微調(diào)任務(wù)上多任務(wù)學(xué)習(xí)提升性能也并不新穎, 例如早期Microsoft的工作MT-DNN,Facebook的工作MUPPET。
不過,筆者認為,這樣的A+B,或許是未來通用自然語言處理模型的一個可能的解決方案。
首先通過大量的無標(biāo)記語料訓(xùn)練千億參數(shù)級別的大規(guī)模自回歸預(yù)訓(xùn)練模型,第二步,通過設(shè)計指令(Instruction Tuning) 的方式讓這樣的模型能夠?qū)斫夂蜕扇蝿?wù)進行微調(diào)。在微調(diào)的過程中可以采用類似于課程學(xué)習(xí)的方式,先學(xué)習(xí)底層的任務(wù)(如命名實體識別,序列語義標(biāo)注),再學(xué)習(xí)上層的任務(wù)(如邏輯推理,問答);先學(xué)習(xí)資源豐富的任務(wù)(如英語/大數(shù)據(jù)任務(wù)),再學(xué)習(xí)資源較少的任務(wù)(如小語種、少數(shù)據(jù)任務(wù)),并利用適配器(Adapter)保留模型中任務(wù)專用的部分。最后,給出指令讓模型面對新數(shù)據(jù)、新任務(wù)進行推理。
這樣通用性更強的工作應(yīng)該不會太遠,也許資源豐富的大廠們已經(jīng)在搞了呢~
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] Finetuned Language Models Are Zero-Shot Learners
https://arxiv.org/abs/2109.01652
[2] Multi-Task Deep Neural Networks for Natural Language Understanding
https://aclanthology.org/P19-1441/
[3] Muppet: Massive Multi-task Representations with Pre-Finetuning
https://arxiv.org/abs/2101.11038
總結(jié)
以上是生活随笔為你收集整理的别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知乎招聘搜索算法实习生!邀你共建知乎搜索
- 下一篇: 谈谈神经网络的大规模训练优化