EMNLP 2021 | 以对比损失为微调目标,UMass提出更强大的短语表示模型
?PaperWeekly 原創 ·?作者?|?Maple小七
學校?|?北京郵電大學碩士生
研究方向?|?自然語言處理
論文標題:
Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration
論文來源:
EMNLP 2021
論文地址:
https://arxiv.org/abs/2109.06304
論文代碼:
https://github.com/sf-wa-326/phrase-bert-topic-model
原生 BERT 主要依靠詞匯相似度來確定語義相似度,因此無法很好地表示短語的語義。為了獲取更好的短語表示,本文構建了兩個面向短語表示的訓練數據集,并以對比損失為目標微調 BERT 獲得了短語表示模型 PhraseBERT。如下圖所示,PhraseBERT 能夠產生具有優質語義分布且詞匯多樣化的短語表示空間,將其應用于下游任務也許能夠增強模型對短語語義的理解。
緒言
在語義匹配、機器翻譯、問答系統等主流的 NLP 任務上,如何獲取優質的短語表示 (phrases representations) 一直都是一個非常重要的話題,雖然 BERT 在這些任務上取得了優異的成績,但大量 case study 都表明 BERT 其實僅僅是在依靠其強大的擬合能力捕捉淺層的文本統計信息做文本模式識別,離真正的自然語言理解還差得很遠。?
究其本質,一個模型所能學習到的東西,大多數是由數據和訓練目標決定的,比如在無監督語義相似度任務中,原生 BERT 句向量的表現通常不如 GloVe 句向量,這是因為 BERT 的 MLM 和 NSP 訓練目標并不是為語義相似度設計的。因此,為了讓 BERT 能夠理解同一個短語的不同表達其實是同一個意思,我們就需要構造這樣的數據集讓 BERT 去記憶不同短語之間的關系,并適當地泛化到其他短語組合上。?
具體來說,直接使用 BERT 生成的短語表示空間,有如下兩個問題:?
1. BERT 預訓練的輸入永遠是 512 個 token,沒有見過短文本,因此無法生成很好的短文本表示;?
2. BERT-flow [1] 曾指出基于 BERT 計算的語義相似度與編輯距離高度相關,即 BERT 嚴重依賴于詞匯相似度來確定語義相似度。?
要解決上述兩個問題,自然就只能從數據和訓練目標下手,PhraseBERT 也僅僅是在 BERT 的基礎上做了這兩個方面的改進,下面首先介紹數據集的構造。
1.1 構建面向短語表示的數據集
為了解決 BERT 過于關注詞匯相似度且輸入只包含長文本的問題,我們首先需要構建一個具有詞匯多樣性的短語復述數據集 (lexically diverse phrase-level paraphrase) 來鼓勵 BERT 不要太關注字面匹配。
然而我們找不到現成的數據集,因此為了構造正負樣本對 ,本文作者利用 CoreNLP 提供的 shift-reduce 語法解析器,從 WikiText-103 數據集中抽取了 10 萬個短語 ,然后為每個 構建正樣本 和負樣本 。其中, 是由一個現成的基于 GPT-2 的復述模型提供的,為了防止 和 存在詞匯重疊,在生成過程中作者增加了詞匯不重疊的約束,并采用核采樣促進多樣性。 的生成和 類似,作者首先隨機替換 中的一個非停用詞,然后像獲取 那樣將其輸入上述復述模型獲取 。這樣, 和 、 均無詞匯重疊,但 和 語義相關,和 語義無關。
然而,僅靠上述數據集訓練短語表示是不夠的,因為該數據集是不包含上下文的 (out of context),由于上下文也包含了不少短語的語義信息,因此作者進一步構建了包含上下文的短語 (phrase-in-context) 數據集為模型注入上下文信息。該數據集同樣是利用 shift-reduce 語法解析器從 Books3 數據集中抽取 10 萬個短語 。針對每個短語 ,作者保留了 對應的 120 個 token 的上下文 ,并將上下文中的 替換為[MASK],而 為隨機采樣的無關上下文。
1.2 采用對比損失微調BERT
有了數據集,我們采用和 SentenceBERT 完全相同的對比損失微調 BERT,其基本思想為拉近 和 、 的距離,推開 和 , 的距離,如下圖所示:
針對第一個數據集中的短語三元組 ,我們首先獲取他們的表示,即平均 BERT 最后一層的 token 向量:,然后計算三元組損失:
其中 為 范數,設 margin 為 。類似地,針對第二個數據集,我們同樣可以計算三元組損失:。
我們將僅在第一個數據集上訓練的模型記為 PhraseBERT-phrase,僅在第二個數據集上訓練的模型記為 PhraseBERT-context,在兩個數據集上聯合訓練的模型記為 PhraseBERT。
實驗結果
作者在如下五個數據集上對比了各個短語表示模型的表現,其中 PPDB-filtered 移除了 PPDB 數據集中詞匯相似度過高的樣本,使得正例和負例的詞匯重疊率完全一致,并保證每個重疊的 token 均在正例和負例中出現過,這使得模型完全無法依靠字面相似度來推斷語義相似度。
作者對比了 PhraseBERT 和基線模型 GloVe、SpanBERT 和 SentenceBERT 的表現,同時還對比了僅使用單個數據集的模型:PhraseBERT-phrase 和 PhraseBERT-context,實驗結果如下表所示:
從上圖可以發現,PhraseBERT 超越了所有基線模型,尤其是在輸入非常短的數據集 (Turney) 上。但值得注意的是,在基線模型中,SentenceBERT 取得了最好的表現,甚至相當接近于 PhraseBERT,這表明短語級語義和句子級語義是非常相關的,在句子級語義相似度任務上模型也能學習到不錯的短語表示。
同時讓人意外的是,雖然 SpanBERT 的訓練目標是 masked span prediction,但它的表現比 BERT 更差。另外,我們也可以看到 PhraseBERT 的兩個訓練目標是互補的,PhraseBERT-phrase 和 PhraseBERT-context 都比 PhraseBERT 更差,這一點下面會進一步分析。
2.1 短語表示空間的詞匯多樣性
一個好的短語表示空間應該具有充分的詞匯多樣性,比如"natural language processing"的最近鄰應該是"computational linguistics",即使這兩個短語的詞匯完全不重疊。為了衡量短語表示空間的詞匯多樣性,作者提出了如下三個指標:?
% new tokens:?top-k 最近鄰短語的新詞比例;?
LCS-precision:?top-k 最近鄰短語和原短語的最長公共子串長度;?
Levenstein edit distance:?top-k 最近鄰短語和原短語的編輯距離。?
下表給出了不同模型的詞匯多樣性指標,相比于 SentenceBERT,PhraseBERT 有著更好的詞匯多樣性。另外,PhraseBERT 的兩個訓練目標其實也有著互相制約的作用,PhraseBERT-context 的詞匯過于多樣化,導致語義信息不足,而 PhraseBERT-phrase 的詞匯多樣性又不如 SentenceBERT,因此將這兩個訓練目標結合能夠取得更好的效果。
2.2 PhraseBERT在主題建模中的應用
擁有一個優質的短語表示空間有什么意義呢?作者選擇了主題建模這一任務來表明 PhraseBERT 的價值。作者將 PhraseBERT 集成到了一個神經主題模型中,該模型將主題表示為詞匯、短語和句子的混合體,主題建模的具體過程可參見原文,這里直接給出實驗結果。
總結
本文提出的 PhraseBERT 雖然在短語相似度任務上比 SentenceBERT 好,但其實也沒有好太多,因為 SentenceBERT 本就不是為了短語表示設計的,PhraseBERT 和 SentenceBERT 的差別僅僅是訓練數據集不一樣而已,這實際上也恰好表明 SentenceBERT 通過句子相似度任務學到了不錯的短語表示。但更讓人感興趣的其實是 PhraseBERT 在句子級語義相似度任務上的表現如何,就像之前的 DensePhrase [2]?那樣,我們可以期待通過短語表示就能解決句子級甚至段落級任務。
參考文獻
[1]?https://arxiv.org/abs/2011.05864
[2]?https://arxiv.org/abs/2109.08133
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的EMNLP 2021 | 以对比损失为微调目标,UMass提出更强大的短语表示模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电子商业汇票怎么承兑
- 下一篇: 「AI在左,营销在右」互动营销创意破圈,