當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

有钱可以多任性？OpenAI提出人肉模型训练，文本摘要全面超越人类表现！

發(fā)布時間：2024/7/5 ChatGpt 50 豆豆

生活随笔收集整理的這篇文章主要介紹了有钱可以多任性？OpenAI提出人肉模型训练，文本摘要全面超越人类表现！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 小軼

背景

三個多月前，OpenAI的GPT-3在NLP界掀起軒然大波。就在上周，視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作，全方位超越人類表現(xiàn)。其亮點在于：以人類偏好替代自動化評測方法（如ROUGE、BLUE）為訓(xùn)練目標，用人類反饋作為獎勵進行強化學(xué)習(xí)，性能表現(xiàn)十分驚艷。

對于較為復(fù)雜的NLP任務(wù)，如何進行評測、如何構(gòu)造精準的損失函數(shù)已困擾了NLP researchers多年。以文本摘要為例，若采用自動化指標，模型的生成結(jié)果將逐漸逼近數(shù)據(jù)集內(nèi)人工手寫的摘要。但這種評價方式其實并不符合我們真正的訓(xùn)練目標。我們希望生成的并非“與數(shù)據(jù)集相近的摘要”，而是一篇“好的摘要”——它應(yīng)該精簡、準確、概括性強、語言連貫流暢。用BLUE和ROUGE顯然評測不了這些維度。

此外，過度模仿數(shù)據(jù)集內(nèi)容還存在很多更深層的隱患。大量數(shù)據(jù)集，比如本工作采用的TL;DR數(shù)據(jù)集，都是直接從網(wǎng)絡(luò)上爬取下來的。其內(nèi)容是由成千上萬、形形色色的互聯(lián)網(wǎng)用戶上傳。其質(zhì)量良莠不齊是一方面，更嚴重的是其中不乏一些危險暴力、真實性存疑的言論。這些互聯(lián)網(wǎng)的暗面是我們不希望AI學(xué)到的。

用人類反饋指導(dǎo)AI的學(xué)習(xí)過程，不僅僅是用更精準的評測方式提高性能、刷新SOTA，也是在AI safety方面的一點推進。

論文題目：
《Learning to Summarize with Human Feedback》

論文鏈接:
https://arxiv.org/pdf/2009.01325.pdf

開源代碼:
https://github.com/openai/summarize-from-feedback

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞【0914】下載論文PDF~

方法

整體流程可歸納為以下4步，后文將依次展開：

訓(xùn)練初始摘要模型Supervised Baseline

構(gòu)建人類反饋數(shù)據(jù)集，不斷人工比較兩篇摘要優(yōu)劣

用上述“人類反饋數(shù)據(jù)集”訓(xùn)練一個Reward Model，模仿人類偏好對摘要打分

用強化學(xué)習(xí)的方法繼續(xù)訓(xùn)練Supervised Baseline，每一步的獎勵由上述Reward Model給出，從而學(xué)習(xí)符合人類偏好的摘要生成策略

下圖展示了2-4步的實現(xiàn)細節(jié)：

1. 訓(xùn)練初始摘要模型

模型采用GPT-3風格的Transformer decoder。作者總共訓(xùn)了兩個不同size的baseline。當然參數(shù)規(guī)模還沒有真的GPT-3那么喪心病狂——也就一個13億，一個67億吧：）（Bert-large的4倍和20倍）。

訓(xùn)練方法，pretrain+fine-tune兩步走。先在大量語料上進行預(yù)訓(xùn)練得到Pretrained Model。然后再用摘要數(shù)據(jù)集TL;DR中質(zhì)量較高的部分，對模型進行fine-tune，得到Supervised Baseline。為保證baseline足夠強大，可堪一戰(zhàn)，作者用baseline跑了一下CNN/DM——一個baseline在預(yù)訓(xùn)練和fine-tune時都沒見過的另一個摘要數(shù)據(jù)集。其性能表現(xiàn)可超越2019年5月時的SOTA。

2. 構(gòu)建人類反饋數(shù)據(jù)集

構(gòu)建過程就是不斷給標注者同一文章的2篇摘要，要求選出其較為偏好的的一篇。最終數(shù)據(jù)集總共包含6.48w次比較。

值得一提的是作者團隊為保證標注質(zhì)量做出的努力。大概翻譯一下作者原話：

“在之前的工作中，我們發(fā)現(xiàn)標注者經(jīng)常給我們覺得很一般的文章也打高分。所以這次，我們斥巨資保證標注質(zhì)量。為提高與標注者的交流效率，我們拒絕采用第三方標注平臺，直接雇傭80名標注者到身邊......對標注者每小時的標注量不做要求（如果標得太快會在一開始就被辭掉）。我們也不按標注數(shù)目發(fā)工資，而是按工作時長，15刀/時。”

3. 訓(xùn)練Reward Model

光靠人工標注的6.48w條比較數(shù)據(jù)，仍然還不足以調(diào)教一個規(guī)模龐大的摘要模型。于是，作者以人類標注數(shù)據(jù)為基礎(chǔ)，訓(xùn)練了一個Reward Model，模仿人類喜好對摘要進行打分。

模型結(jié)構(gòu)，就是第1步中Supervised Baseline上再疊一個線性層。訓(xùn)練的時候，給標注者已經(jīng)比較過的摘要,摘要，讓Reward Model分別打分（,?）。假設(shè)標注結(jié)果是比好，則損失函數(shù)為：

4. 學(xué)習(xí)符合人類偏好的摘要生成策略

萬事俱備后，作者用強化學(xué)習(xí)的方法繼續(xù)訓(xùn)練Supervised Baseline，以符合人類偏好為目標調(diào)整生成策略。仔細讀paper細節(jié)的話，會發(fā)現(xiàn)每一步的獎勵其實并不只Reward Model的打分，而是由兩部分構(gòu)成的：

（向右滑動查看完整公式）

即Reward Model的給分。后面又減去了一項，是初始Supervised Model與當前模型的相對熵。也就是說，既希望新的模型能夠在Reward Model這里得高分，又不允許它離初始模型偏離得太遠。因為相應(yīng)實驗表明（如下圖所示），當模型與初始狀態(tài)相對熵變大的時候，Reward Model可能會對模型打高分（圖中虛線），但實際人類喜好程度（圖中實線）反而會不斷降低。

這樣的差異說明Reward Model對于人類偏好的模仿能力仍然十分有限。論文附錄部分也列舉了一些模型overfit后的結(jié)果，如下圖所示。可以看到，當模型overfit后，似乎可以學(xué)習(xí)到某種固定的pattern騙取Reward Model的高分。

實驗

論文實驗部分持續(xù)彌漫金錢的味道。所有實驗都采用人工評測的方式，以保證最大程度的準確性。

1. TL;DR實驗結(jié)果： TL;DR是模型做fine-tune的數(shù)據(jù)集，作者在其測試集上進行評測，實驗結(jié)果見下圖。共比較了4種摘要生成結(jié)果：

數(shù)據(jù)集中人工寫的reference summaries
用人類反饋強化學(xué)習(xí)過的最終模型
未經(jīng)強化學(xué)習(xí)的Supervised Baseline
未在摘要任務(wù)上fine-tune過的預(yù)訓(xùn)練模型

左圖是多維度的人工評測打分（coverage,coherence,accuracy）。右圖中，縱軸是人類偏好比例，橫軸為模型規(guī)模。結(jié)論：經(jīng)人類反饋強化學(xué)習(xí)后，全方位超越人類表現(xiàn)。

2.遷移實驗結(jié)果： 盡管模型從未學(xué)習(xí)過新聞領(lǐng)域的摘要生成，模型依然在新聞類數(shù)據(jù)集CNN/DM上取得了很好的表現(xiàn)。如下圖所示，在模型規(guī)模相等的情況下，TL;DR上強化學(xué)習(xí)后的模型（Human feedback transfer）與直接在CNN/DM上fine-tune過的模型（Supervised CNN/DM）相比，評測結(jié)果相差無幾。

感想與小結(jié)

盡管提升效果顯著，本工作還是存在很多局限性。一個是錢的問題。此外，直接用人類反饋指導(dǎo)模型學(xué)習(xí)的可操作性、可普適性仍然存疑。我們也看到，在進行強化學(xué)習(xí)時的獎勵并非直接由reward model給出，還需要加一個相對熵限制項。并且從實驗中的分析結(jié)果來看，模型訓(xùn)練似乎非常容易過擬合。可以想見整個調(diào)參過程應(yīng)該是非常復(fù)雜的。

其實，用人類的行為模式指導(dǎo)AI的思想已不是首次出現(xiàn)。例如OpenAI去年就有用人類偏好精調(diào)GPT-2的工作。又如發(fā)表于今年ACL上的一篇工作，比較了人類與RNN的attention模式差異。在此之前，也有用人類偏好指導(dǎo)語義解析和翻譯任務(wù)的工作。當然，高質(zhì)量、大規(guī)模地標注人類反饋需要雄厚的財力。也是因為這個原因，其他工作多不能做到OpenAI的規(guī)模。

無論如何，人肉煉丹所得到的提升效果肉眼可見。相關(guān)工作也已在今年工作中陸續(xù)涌現(xiàn)。是否會成為NLP界的下一個熱點，也尚未可知。

文末福利
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~