EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练
?PaperWeekly 原創 ·?作者?|?褚維蕪
單位?|?北京郵電大學研究生
研究方向?|?自然語言處理
論文標題:
Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems
論文鏈接:
https://arxiv.org/abs/2108.12589
代碼鏈接:
https://github.com/MiFei/ST-ToD
背景介紹
1.1 動機
在面向任務的對話(ToD)系統中,數據標注成本非常高,怎樣利用有限的標注數據來訓練任務型對話系統的各個模塊是一個具有挑戰的任務。因此,ToD 中的小樣本學習在實際應用中具有重要的價值。雖然有標注的數據非常少,但實際的 ToD 系統實際有許多無標注的對話數據。因此,利用無標注的數據來改進 ToD 系統中各個模塊的性能具有重要的現實意義。
1.2 主要工作
本文提出了一種自訓練(Self-training)方法,該方法利用無標注的對話數據來改進基于預訓練模型的 ToD 系統在少樣本學習(few-shot learning)場景下的性能,主要貢獻如下:
本文是首次在小樣本學習場景下研究自訓練方法對現有的 ToD 預訓練模型的影響。
本文提出了一種自訓練方法,該方法迭代地為無標注數據中模型預測的置信度最高的數據打上標簽,這些偽標注數據可以用于訓練更強的 Student 模型。此外,本文提出了一種新的文本增強技術(GradAug),即在 MLM 中只 mask 非關鍵字符,這種方式保留句子的語義信息,從而更好地訓練 Student 模型。
本文在 ToD 中的四個下游任務(意圖分類、對話狀態跟蹤、對話行為預測和回復選擇)上進行了實驗,實驗結果表明,本文所提出的自訓練方法可以繼續提高目前最先進的預訓練模型(BERT、ToD-BERT)的性能。
下游任務介紹
任務定義
不同的下游任務的輸入和對應的標簽均定義為 和 ,預測模型定義為 , 通常情況下可以分為兩個部分:一部分為特征提取器 ,本文使用的是 BERT 的 [CLS] 位置的輸出作為隱狀態表示 ;另一部分為用于預測的輸出層,需要為不同的下游任務設計不同的輸出層。
意圖分類(Intent classification,IC)
意圖分類是一個多分類任務,輸入一個話語 ,模型在 個意圖上預測該話語對應的意圖,并采用交叉熵損失函數對模型進行優化。
對話狀態追蹤(Dialog state tracking,DST)
對話狀態追蹤也是一個多分類任務,輸入一段對話歷史 ,模型在每個 對上預測對應輪次的槽值。第 個 對上的第 個槽值 與輸入 的余弦相似度分數為:
其中 為第 個 對的槽投影層, 的數目等于 對的數量。模型訓練的損失函數為所有 對的交叉熵損失的和。
對話行為預測(Dialog act prediction,DA)
對話行為預測是一個多標簽分類任務,輸入一段對話歷史 ,模型對當前對話輪次的對話動作進行 0-1 預測,采用 0-1 交叉熵損失函數對模型進行優化。
回復選擇(Response selection,RS)
回復選擇任務是一個排序問題,輸入一段對話歷史 ,該任務從回復候選池中檢索最相關的系統回復。本文 2019 年 Henderson 等人?[1]?提出的雙編碼器模型計算輸入對話歷史 與第 個候選響應 之間的相似性。采用交叉熵損失函數。
模型
3.1 自訓練算法
本文所提出的自訓練算法總體流程如上圖所示。在訓練過程中需要維護兩個數據池:未標注數據 和已標注數據 ,兩個版本的模型: 和 。該算法可以分為五個步驟:
初始化 模型 (算法1 第1行)利用少量的標注數據(數據集的 1% or 10%)進行訓練, 模型進行 warm up。
利用 模型對無標注的數據 的標簽進行預測(算法 1 第 4-8 行)對于每一個輸入數據 , 模型會對其標簽進行預測 。本文將預測分數 設定為該預測的置信度分數 。注意:當預測 僅包含一個標簽時(如:意圖分類、回復選擇), 為該輸入數據 的預測標簽對應的預測分數;當預測 包含多個標簽時(如:對話狀態追蹤、對話動作預測), 為輸入數據 的預測標簽對應的預測分數的平均值。
根據置信度分數 從 選擇 個實例進行標注(算法 1 第 9-10 行) 本文選擇的方式是在置信度分數中選擇最高的 個實例,并利用 對這些實例進行標注。這些標注的實例會從 轉移到 。
對已標注數據 進行文本增強(GradAug),得到 (算法 1 第 11 行)
利用 來訓練 模型(算法 1 第 12 行)本文在每次迭代中均需要重新初始化 模型以避免在多次訓練迭代中過度擬合 中的初始和早期數據。一般而言, 應該具有與 同等的或更高的能力,才可以隨著 中數據量不斷地增加來學習知識。本文將 設置為與 相同的大小,并且實驗證明了可以在不增加模型容量的情況下得到性能的提升。
用訓練得到的 模型來覆蓋原來的 模型,進行下一輪的訓練(算法 1 第 13 行)
3.2 文本增強技術(GradAug)
本文對已標注的數據 提出了一種文本增強技術(GradAug),以此來學習更穩健的 模型。GradAug 使用 MLM(masked language model)來進行文本增強,不同于最佳提出的文本增強方式 SSMBA 采用隨機 mask 的方式,GradAug 認為,如果一段文本中的關鍵詞被 mask了,在重構文本時原始的語義將會被改變,這將對下游任務產生很大的影響。
如下圖所示(左),如果“status”被 mask,重構的文本可能會是“purpose”、“route”這些詞,語義本身被改變了。
基于此,本文提出的 GradAug 采用的是基于梯度的 mask 方式(Gradient-based token masking),對于每一個包含 個詞的輸入文本 ,GradAug 會根據該詞對應任務標簽的重要性生成一個 mask 概率 。具體而言可以分為三個步驟:
計算 (算法2 第3行) 對于輸入 的嵌入矩陣為 和標簽 ,每一個詞對標簽 的重要性是通過顯著性映射(saliency map) 計算:
? 通過將 對 進行微分(計算梯度)來得到文本中第 個詞對標簽 的重要性。然而原始梯度可能包含噪音,且可能在局部劇烈波動。因此,本文計算第 個詞的平滑顯著性度量(smooth saliency measure) 為:
其中高斯噪聲 。第 個單詞被 mask 的概率 與 成反比,即該單詞對標簽 越重要,則其被 mask 的概率就越小:
最后,利用 中元素的和對其進行標準化得到 mask 概率 。
根據 來對 中 15% 的詞進行 mask得到 (算法 2 第 5 行)
用 MLM 來對 進行重構,得到原本文 的擴充文本 (算法 2 第 6 行)根據每個 [MASK] 的預測概率,從 10 個最可能的詞中抽取 1 個詞來進行重構。由于基于梯度的 mask 方案避免了替換對 的語義很重要的詞,所以可以認為 和 的標簽 是一樣的。
實驗
4.1 數據集、評測指標、Baseline
四個下游任務的評測指標和 TOD-BERT?[2]?一致,共選用四個不同數據集:意圖分類(OOS)、對話狀態追蹤(MWOZ)、對話動作預測(MWOZ、DSTC2、GSIM)、回復選擇(MWOZ、DSTC2、GSIM)。實驗中,隨機抽取 1% 或 10% 的訓練數據作為初始的標注數據?,其余數據作為未標注數據?。
本文將所提出的自訓練方法(ST)分別應用于兩個基線模型:BERT 和 TOD-BERT。
4.2 評測結果
4.2.1 意圖分類
從表中可以看出,ST 在很大程度上提高了 out-of-scope 意圖的召回率,表明它對具有噪聲分布的 out-of-scope 意圖具有更強的魯棒性。另外,僅從實驗結果來看,數據量越少,ST 相比于 baseline 的提升越明顯。
4.2.2 對話狀態追蹤
從表中可以看出,ST 持續改進了 BERT 和 ToD-BERT 的性能。
4.2.3 對話動作預測
從表中可以看出,當使用 10% 標注數據時,BERT 和 ToD-BERT 的表現與它們的上界(Full)相似,ST 的改進幅度有限;當使用 1% 標注數據時,在兩個較簡單的數據集(DSTC2, GSIM)和 MWOZ 的 macro-F1 上,ST 對于模型的提升更明顯。
4.2.4 回復選擇
從表中可以看出,ST 在 BERT 之上可以有更大的性能提升。
4.3 其他實驗
總結
本文提出的自訓練方法和文本增強技術可以利用無標注數據來訓練任務型對話系統,在小樣本場景下取得了很好的性能。自訓練的方法一方面可以為未標注數據打上偽標簽,在很大程度上彌補了小樣本學習和全數據之間的差距;另一方面,自訓練可能成為未來研究可擴展的 ToD 系統的一種方式。
參考文獻
[1] Henderson M , I Vuli?, ?Gerz D , et al. Training Neural Response Selection for Task-Oriented Dialogue Systems[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.?
[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 今日arXiv精选 | 11篇EMNLP
- 下一篇: 家用电器股票有哪些龙头股 板块大跌引来资