EMNLP 2021 | PairSupCon:基于实例对比学习的句子表示方法
?作者 | ShusenW
學習 | 北京郵電大學
研究方向 | 自然語言處理
論文標題:
Pairwise Supervised Contrastive Learning of Sentence Representations
論文鏈接:
https://arxiv.org/abs/2109.00542
Abstract
近期句子表示學習的成功主要是通過對 NLI 數據集上用 triplet 或者 siamese 損失進行微調實現性能提升。然而,這些方法存在一個共同的缺點:一對矛盾中的句子不一定來自不同的語義類別。因此,僅僅優化推理蘊含和矛盾的目標函數是無法充分抓取高階語義特征的,也就是無法對更細粒度的語義進行表示。這個缺點是由于 triplet 或者 siamese 損失只能從單個的句子對或三元組中學習,從而導致糟糕的局部最最優解。
本文提出 PairSupCon,一種基于實例鑒別學習的方法來對低階語義(蘊含矛盾推理)到高階語義之間的聯系。PairSupCon 在多個包含不同句子語義粒度的下游任務進行評估,并取得明顯的性能提升(聚類任務提升 10% 以上精度,STS 任務提升 5% 以上精度)。
Introduction
得到一個高質量的句子表示是 NLP 的一個基礎任務。目標是在表示空間中,將語義相近的句子映射到一起,語義不相似的句子相距更遠。目前一些常規的做法是在 NLI 數據集上微調預訓練模型,從而得到高質量的句子表示用于下游任務。具體的預訓練目標是將每個句子對分到三種關系類別:蘊含,矛盾,中立。
即使之前的工作取得了不錯的效果,但是這類方法存在一個共同的缺點:構成一對矛盾的句子不一定屬于不同的語義類別。這句話的大概意思是,一對矛盾的句子在更細粒度的語義類別中可能屬于同一個類。
因此,優化推理蘊含和矛盾的目標函數是無法充分對高階語義類別進行編碼的。此外,原始 siamese 損失僅僅從獨立的句子對中學習,這通常需要大量的數據集才能達到不錯的性能。本文經過實驗驗證,原始的 siamese 損失有時會得到一個局部最優的模型,導致高階語義的表現下滑,不如其他模型。
針對以上問題,本文考慮從自監督對比學習的角度出發,聯合優化句子對語義推理目標函數和實例鑒別損失。先前的工作已經驗證了,實例對比學習能夠在表示空間中隱式地將相似的句子聚集到一塊,且不需要任何外部監督。
因此,PairSupCon 利用了這種隱式分組效應,將來自同一語義類別的表示集合在一起,同時增強了模型的語義蘊涵和矛盾推理能力。具體效果如 Fig1 所示,(a) 體現了 PairSupCon 增強了模型的語義蘊涵和矛盾推理能力。(b) 體現了模型高階語義表示能力。
之前的研究主要關注句子相似度相關評價,作者認為對高階語義類別概念的編碼能力同樣是評估句子表示質量的重要一面。并且作者也在實驗中驗證了先前的 SOTA 在編碼高階語義時出現了性能退化。另一方面,如果模型能夠更好的編碼高階語義表示,那么對低階語義的推理(蘊含和矛盾)也有促進作用。這個假設與人是如何從高階到低階區分物體的方式是一致的。
Model
模型結構如 Fig2 所示,整體框架較為簡單,輸入為句子對,經過一個共享參數的特征編碼器得到句子對表示,然后將句子對表示聯合優化實例鑒別 h 和蘊含矛盾分類 f。具體的數據集輸入形式如 Fig2(b) 所示。
3.1 Instance Discrimination
實力鑒別,目的是將每個正例對與其他正例對拉遠,從而獲取更高級的語義特征表示能力。令 為一個隨機采樣的 batch,其中 表示一個蘊含或者矛盾句子對。因此,它的正例(positive)是 NLI 數據集中的每個句子對中的 entailment 句子對。實例對比的目標函數是使得輸入的正對 中的假設句 ,在同一個 batch 中遠離其他 個句子。更具體地來說,令 表示一個 batch 中句子對的索引,對 做以下處理:
其中, 表示溫度參數, 表示余弦相似度。PS:以上函數可以看做是 維的 softmax 分類(將 分為 )
因此,相似地,我們可以將假設句 與原句 互換一下位置,即可以構造在 個句子中將 鑒別為 的目標函數。因此,最終我們得到了雙向實例鑒別函數:
其中, 為指示器函數, 中正樣本對的個數。
優化上述損失不僅有助于隱式地將分類語義結構編碼到表示中,而且還能提高成對語義推理能力,盡管除了真正的隱含標簽外,模型沒有成對監督。
3.2 Leaning from Hard Negatives
注意 可以重寫為以下形式:
因此這可用解釋為原始的 triplet 損失將其他 個樣本認為是負例。然而,負例是從訓練數據中均勻采樣得到了,負例的質量參差不齊。理論上來說,我們更關注高質量負例,也就是困難樣本。這類樣本來源于不同的語義類別,但是在表示空間中與正例相近。參照 attention 加權的方式,我們可以根據重要性對所有的負例加權:
?
其中,
為 關于所有 個負例的相對重要程度。這種設計是基于一個假設:在表示空間中,困難樣本更可能離正樣本本身更近。即使仍然有一些特殊情況,即正樣本附近的樣本與正樣本來自同一個語義類別,但是這在訓練集不是很小,以及每個 minibatch 都是均勻采樣的情況下是小概率事件。
3.3 Entailment and Contradiction Reasoning
實例鑒別損失主要集中在區分正對,而在區分矛盾和蘊涵方面沒有明確的監督。因此,為了促進模型對矛盾和蘊含的推理,本文聯合優化了蘊含矛盾推理目標函數。本文采用 softmax-based cross-entropy 作為目標函數,具體形式為:
其中, 為 的句子表示。注意,訓練蘊含矛盾的數據集是單獨從 NLI 數據中抽取出來的,并不參與實例鑒別損失的訓練。
3.4 Overall loss
最后,整體的損失函數為:
其中, 為超參數,用于平衡蘊含矛盾推理和高階語義編碼。
Experiments
高階語義表示能力—— 8 個短文本聚類數據集上測試
從實驗結果來看,SBERT 通過簡單地優化成對的 siamese 損失,導致分類語義結構的退化嵌入。一個可能的原因是 SBERT 使用了一個大的學習率(2e-05)來優化,這可能會導致在原始 BERT 模型中獲得的知識的災難性遺忘。
然而,與 SBERT 相比,PairSupCon 平均提高了 10.8% 到 15.2%,這證實了利用實例識別學習的隱式分組效應,更好地將高級語義概念編碼到表示中的動機。
此外,PairSupCon 的性能也比 SimCSE 更好,作者懷疑這是因為 PairSupCon 更好地利用了訓練數據。考慮到前提和假設之間的統計數據差異,PairSupCon 可以通過利用 premise 或 SimCSE 未發現的假設句的額外內在語義屬性,更好地捕捉分類語義概念。
蘊含矛盾推理能力—— STS 語義相似度數據集上測試
PairSupCon 的表現明顯優于普通的 BERT 和 SBERT 模型。這驗證了我們的假設,即通過將高級分類結構隱式編碼到表示中,PairSupCon 促進了低級語義蘊涵推理目標的更好收斂。這個假設與人類自上而下的分類行為是一致的。
此外,SimCSE 的性能優于 PairSupCon,是由于 SimCSE 性能增益主要是通過將隱含分離和矛盾分離顯式地合并到實例識別損失中來貢獻的。而 PairSupCon 主要是通過雙向實例鑒別損失來獲得更好的聚類性能,因此,結合 SimCSE 和 PairSupCon 的優勢,開發一個更好的基于實例識別的句子表示學習目標是一個很有前景的方向。
困難樣本消融實驗
從實驗結果可以看出,不管是單純的實例鑒別還是 PairSupCon,加上困難樣本后在 STS 和聚類任務上都有不同程度的性能提升。
Discussion
文章從提高模型高階句子語義表示能力出發,從而促進低階語義表示能力提升的角度,提出了一個聯合實例鑒別損失和蘊含矛盾推理損失的聯合優化模型。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的EMNLP 2021 | PairSupCon:基于实例对比学习的句子表示方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百洋医药是上市公司吗
- 下一篇: 用狄拉克函数来构造非光滑函数的光滑近似