有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!
文 | 小軼
背景
三個多月前,OpenAI的GPT-3在NLP界掀起軒然大波。就在上周,視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作,全方位超越人類表現(xiàn)。其亮點在于:以人類偏好替代自動化評測方法(如ROUGE、BLUE)為訓(xùn)練目標,用人類反饋作為獎勵進行強化學(xué)習(xí),性能表現(xiàn)十分驚艷。
對于較為復(fù)雜的NLP任務(wù),如何進行評測、如何構(gòu)造精準的損失函數(shù)已困擾了NLP researchers多年。以文本摘要為例,若采用自動化指標,模型的生成結(jié)果將逐漸逼近數(shù)據(jù)集內(nèi)人工手寫的摘要。但這種評價方式其實并不符合我們真正的訓(xùn)練目標。我們希望生成的并非“與數(shù)據(jù)集相近的摘要”,而是一篇“好的摘要”——它應(yīng)該精簡、準確、概括性強、語言連貫流暢。用BLUE和ROUGE顯然評測不了這些維度。
此外,過度模仿數(shù)據(jù)集內(nèi)容還存在很多更深層的隱患。大量數(shù)據(jù)集,比如本工作采用的TL;DR數(shù)據(jù)集,都是直接從網(wǎng)絡(luò)上爬取下來的。其內(nèi)容是由成千上萬、形形色色的互聯(lián)網(wǎng)用戶上傳。其質(zhì)量良莠不齊是一方面,更嚴重的是其中不乏一些危險暴力、真實性存疑的言論。這些互聯(lián)網(wǎng)的暗面是我們不希望AI學(xué)到的。
用人類反饋指導(dǎo)AI的學(xué)習(xí)過程,不僅僅是用更精準的評測方式提高性能、刷新SOTA,也是在AI safety方面的一點推進。
論文題目:
《Learning to Summarize with Human Feedback》
論文鏈接:
https://arxiv.org/pdf/2009.01325.pdf
開源代碼:
https://github.com/openai/summarize-from-feedback
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞 【0914】 下載論文PDF~
方法
整體流程可歸納為以下4步,后文將依次展開:
訓(xùn)練初始摘要模型Supervised Baseline
構(gòu)建人類反饋數(shù)據(jù)集,不斷人工比較兩篇摘要優(yōu)劣
用上述“人類反饋數(shù)據(jù)集”訓(xùn)練一個Reward Model,模仿人類偏好對摘要打分
用強化學(xué)習(xí)的方法繼續(xù)訓(xùn)練Supervised Baseline,每一步的獎勵由上述Reward Model給出,從而學(xué)習(xí)符合人類偏好的摘要生成策略
下圖展示了2-4步的實現(xiàn)細節(jié):
1. 訓(xùn)練初始摘要模型
模型采用GPT-3風格的Transformer decoder。作者總共訓(xùn)了兩個不同size的baseline。當然參數(shù)規(guī)模還沒有真的GPT-3那么喪心病狂——也就一個13億,一個67億吧:)(Bert-large的4倍和20倍)。
訓(xùn)練方法,pretrain+fine-tune兩步走。先在大量語料上進行預(yù)訓(xùn)練得到Pretrained Model。然后再用摘要數(shù)據(jù)集TL;DR中質(zhì)量較高的部分,對模型進行fine-tune,得到Supervised Baseline。為保證baseline足夠強大,可堪一戰(zhàn),作者用baseline跑了一下CNN/DM——一個baseline在預(yù)訓(xùn)練和fine-tune時都沒見過的另一個摘要數(shù)據(jù)集。其性能表現(xiàn)可超越2019年5月時的SOTA。
2. 構(gòu)建人類反饋數(shù)據(jù)集
構(gòu)建過程就是不斷給標注者同一文章的2篇摘要,要求選出其較為偏好的的一篇。最終數(shù)據(jù)集總共包含6.48w次比較。
值得一提的是作者團隊為保證標注質(zhì)量做出的努力。大概翻譯一下作者原話:
“在之前的工作中,我們發(fā)現(xiàn)標注者經(jīng)常給我們覺得很一般的文章也打高分。所以這次,我們斥巨資保證標注質(zhì)量。為提高與標注者的交流效率,我們拒絕采用第三方標注平臺,直接雇傭80名標注者到身邊......對標注者每小時的標注量不做要求(如果標得太快會在一開始就被辭掉)。我們也不按標注數(shù)目發(fā)工資,而是按工作時長,15刀/時。”
3. 訓(xùn)練Reward Model
光靠人工標注的6.48w條比較數(shù)據(jù),仍然還不足以調(diào)教一個規(guī)模龐大的摘要模型。于是,作者以人類標注數(shù)據(jù)為基礎(chǔ),訓(xùn)練了一個Reward Model,模仿人類喜好對摘要進行打分。
模型結(jié)構(gòu),就是第1步中Supervised Baseline上再疊一個線性層。訓(xùn)練的時候,給標注者已經(jīng)比較過的摘要,摘要,讓Reward Model分別打分(,?)。假設(shè)標注結(jié)果是比好,則損失函數(shù)為:
4. 學(xué)習(xí)符合人類偏好的摘要生成策略
萬事俱備后,作者用強化學(xué)習(xí)的方法繼續(xù)訓(xùn)練Supervised Baseline,以符合人類偏好為目標調(diào)整生成策略。仔細讀paper細節(jié)的話,會發(fā)現(xiàn)每一步的獎勵其實并不只Reward Model的打分,而是由兩部分構(gòu)成的:
(向右滑動查看完整公式)
即Reward Model的給分。后面又減去了一項,是初始Supervised Model與當前模型的相對熵。也就是說,既希望新的模型能夠在Reward Model這里得高分,又不允許它離初始模型偏離得太遠。因為相應(yīng)實驗表明(如下圖所示),當模型與初始狀態(tài)相對熵變大的時候,Reward Model可能會對模型打高分(圖中虛線),但實際人類喜好程度(圖中實線)反而會不斷降低。
這樣的差異說明Reward Model對于人類偏好的模仿能力仍然十分有限。論文附錄部分也列舉了一些模型overfit后的結(jié)果,如下圖所示。可以看到,當模型overfit后,似乎可以學(xué)習(xí)到某種固定的pattern騙取Reward Model的高分。
實驗
論文實驗部分持續(xù)彌漫金錢的味道。所有實驗都采用人工評測的方式,以保證最大程度的準確性。
1. TL;DR實驗結(jié)果: TL;DR是模型做fine-tune的數(shù)據(jù)集,作者在其測試集上進行評測,實驗結(jié)果見下圖。共比較了4種摘要生成結(jié)果:
數(shù)據(jù)集中人工寫的reference summaries
用人類反饋強化學(xué)習(xí)過的最終模型
未經(jīng)強化學(xué)習(xí)的Supervised Baseline
未在摘要任務(wù)上fine-tune過的預(yù)訓(xùn)練模型
左圖是多維度的人工評測打分(coverage,coherence,accuracy)。右圖中,縱軸是人類偏好比例,橫軸為模型規(guī)模。結(jié)論:經(jīng)人類反饋強化學(xué)習(xí)后,全方位超越人類表現(xiàn)。
2.遷移實驗結(jié)果: 盡管模型從未學(xué)習(xí)過新聞領(lǐng)域的摘要生成,模型依然在新聞類數(shù)據(jù)集CNN/DM上取得了很好的表現(xiàn)。如下圖所示,在模型規(guī)模相等的情況下,TL;DR上強化學(xué)習(xí)后的模型(Human feedback transfer)與直接在CNN/DM上fine-tune過的模型(Supervised CNN/DM)相比,評測結(jié)果相差無幾。
感想與小結(jié)
盡管提升效果顯著,本工作還是存在很多局限性。一個是錢的問題。此外,直接用人類反饋指導(dǎo)模型學(xué)習(xí)的可操作性、可普適性仍然存疑。我們也看到,在進行強化學(xué)習(xí)時的獎勵并非直接由reward model給出,還需要加一個相對熵限制項。并且從實驗中的分析結(jié)果來看,模型訓(xùn)練似乎非常容易過擬合。可以想見整個調(diào)參過程應(yīng)該是非常復(fù)雜的。
其實,用人類的行為模式指導(dǎo)AI的思想已不是首次出現(xiàn)。例如OpenAI去年就有用人類偏好精調(diào)GPT-2的工作。又如發(fā)表于今年ACL上的一篇工作,比較了人類與RNN的attention模式差異。在此之前,也有用人類偏好指導(dǎo)語義解析和翻譯任務(wù)的工作。當然,高質(zhì)量、大規(guī)模地標注人類反饋需要雄厚的財力。也是因為這個原因,其他工作多不能做到OpenAI的規(guī)模。
無論如何,人肉煉丹所得到的提升效果肉眼可見。相關(guān)工作也已在今年工作中陸續(xù)涌現(xiàn)。是否會成為NLP界的下一個熱點,也尚未可知。
文末福利
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結(jié)
以上是生活随笔為你收集整理的有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卖萌屋学术站发布!通往高效刷论文之路
- 下一篇: 回顾经典,Netflix的推荐系统架构