AAAI 2021 | 利用标签之间的混淆关系,提升文本分类效果
?PaperWeekly 原創 ·?作者|張琨
學校|中國科學技術大學博士生
研究方向|自然語言處理
論文標題:
Label Confusion Learning to Enhance Text Classification Models
論文作者:
Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu
論文鏈接:
https://arxiv.org/abs/2012.04987
代碼鏈接:
https://github.com/beyondguo/label_confusion_learning
動機
文本分類是 NLP 領域一個十分基礎但非常重要的任務。目前針對文本分類的主流研究方法是一個復雜的模型用于文本表示,一個簡單的分類層預測標簽分布,一個交叉熵用于衡量預測概率分布和真實 one-hot 之間的損失。
更多的工作集中于第一步。這其實是有問題的,主要包含兩個問題:
1. one-hot 的 label 表示假設標簽之間是獨立的,假設太強,忽略了標簽之間的相互重疊關系;
2. one-hot 的 label 表示方法不僅丟失了標簽包含的大量語義信息,同時會導致模型過于自信,在處理標簽有噪聲或者標簽混淆度比較高的數據時出現問題。因此,需要對標簽所包含的信息進行充分的處理和利用。
基于這樣的一個出發點,本文提出了一種稱為 Label Confusion Model(LCM)的方法。
方法
下圖就是本文提出的模型的框架。具體而言,本文提出的框架包含兩個部分:1)傳統的類別預測模型,如左圖所示;2)本文提出的充分利用標簽信息的 LCM 方法,如右圖所示,接下來,將會對本文提出的方法進行詳細介紹。
2.1 Basic Predictor
這部分和一般的方法是沒有不同,輸入過來后使用不同的編碼器進行處理,例如 CNN, RNN, BERT 之類的,然后得到句子語義的表征,最后通過一個 softmax 對數據進行分類,該過程可以表示為如下形式:
2.2 Label Confusion Model(LCM)
這部分是本文的重點,本文認為直接使用 one-hot 來表示標簽一方面造成了標簽信息的浪費,一方面又會誤導模型過于自信,而且模型無法處理便簽混淆或者有噪音的情況。為此,本文設計了 LCM 方法用于對標簽信息進行充分的建模。
具體而言,首先是一個標簽編碼器,例如使用 MLP, DNN 之類的對輸入標簽進行編碼,得到標簽表示的向量。接下來是一個相似度計算模塊(SLD),該模塊首先通過一個相似度計算層計算當前數據句子和每個標簽之間的相似度,然后使用一個帶 softmax 的簡單神經網絡計算得到標簽的混淆分布表示(LCD),這個表示能夠在考慮當前輸入的情況下,充分建模標簽之間的依賴關系。相似度計算更有依據了。
在此基礎上,通過一個權重系數和標簽的原始 one-hot 表示相加,再通過一個 softmax 進行歸一化,就得到了標簽的模擬分布表示(因為標簽的真實分布表示無法獲取)該過程可以表示為如下形式:
到這里可以發現模型預測的標簽概率分布是一個向量,第二步得到的標簽的模擬分布也是一個向量,為了讓預測模型能夠充分利用這些信息,本文在這里使用一個 KL 散度約束這兩個向量表示要離得近一些,具體可以表示為如下形式:
至此,本文的整體技術細節完成。從這里可以看出,本文主要是針對標簽的分布以及標簽之間的關系進行細致的建模,在考慮輸入的情況下分析標簽之間的依賴關系,從而實現動態的輸入感知的標簽編碼,進而幫助模型充分利用標簽數據。
實驗
在實驗部分,本文做了幾組實驗:1)使用不同類型的基本預測模型,然后再加上 LCM,對比前后的模型效果;2)為了充分驗證模型能夠處理標簽混淆以及標簽含噪音的情況,本文也設計了幾個含有不同標簽混淆度,不同標簽噪聲的模型,來進一步驗證模型的效果;3)本文還通過一些可視化進一步展現加上 LCM 之后模型的性能。具體結果如下圖:
從這些實驗結果中都可以看出 LCM 加入之后的效果是非常棒的。
總結
本文主要是針對標簽信息的充分利用進行了深入的研究。區別于傳統的 label smoothing 或者 label embedding 方法,本文希望在利用標簽信息時能夠充分考慮輸入的情況,是輸入影響了標簽之間的重疊或者依賴關系。
同時本文的方法是模型不可知的,能夠進一步提升不同模型的效果,具有靈活的使用方法。最后對標簽進行更全面的建模,更充分的使用,能夠以較小的代價取得更好的效果,非常有意思的一篇文章。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的AAAI 2021 | 利用标签之间的混淆关系,提升文本分类效果的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么空腹不能吃香蕉?
- 下一篇: 内蒙有什么好吃的?