Outlier Detection for Improved Data Quality and Diversity in Dialog Systems-学习笔记
Outlier Detection for Improved Data Quality and Diversity in Dialog Systems
? ? ? ? 1.生成每個實例的矢量表示。
? ? ? ? 2.平均向量以獲得均值表示。
? ? ? ? 3.計算每個實例與平均值的距離。
? ? ? ? 4.按距離升序排列。
? ? ? ? 5.(刪除列表,僅將前k%作為離群值。)
? ? ? ? 最后一步用括號括起來,因為在實踐中使用動態閾值方法,允許用戶根據喜好瀏覽或多或少的列表。
?
PPT
提高對話系統數據質量和多樣性的離群點檢測
Outlier Detection
論文提出了一種使用句子的連續表示的新的異常值檢測方法。可結合神經距離嵌入和基于距離的離群值檢測來檢測短文本語料庫中的錯誤樣本和唯一樣本。
最后一步用括號括起來,因為在實踐中使用動態閾值方法,允許用戶根據喜好瀏覽或多或少的列表。能夠捕獲每個類空間的語義結構。與集合中其他示例相距甚遠的示例可能是一個異常值,原因有兩個:(1)它不是這個類的有效實例(即一個錯誤),或者(2)它是這個類的一個不尋常的示例(即唯一的)。這種方法獨立地應用于每一類數據。
作為示例應用程序,論文中考慮對話系統的兩個任務:意圖分類和插槽填充。 為了進行分類,分別考慮每個可能的意圖標簽的數據,這意味著通過一次考慮一個意圖類別來發現數據中的異常值。 對于插槽填充,根據插槽的組合將數據分組。
這個離群點檢測方法很簡單,因為它只依賴于句子嵌入方法、距離度量和閾值k;不涉及任何超參數。而且,這種方法不需要訓練。
離群值檢測不僅可以用于發現錯誤,還可以用于其他方面。沒有錯誤的異常值可能是數據集中最有趣,信息量最大的示例。論文中建議使用這些示例在迭代過程中指導數據收集,以產生更多不同的數據為目標。為了證明這一想法,該論文開發了一種新穎的眾包管道進行數據收集。
data collection pipeline
論文還提出了一種建立在該論文的檢測技術之上的新穎的數據收集管道,可以自動并迭代地挖掘唯一的數據樣本,同時丟棄錯誤的樣本。
圖1a顯示了一個常見的眾包管道。任務設計人員編寫種子語句,目標是意圖(用于分類)或槽(用于槽填充)。群眾工作人員讀種子,寫釋義。這些釋義隨后傳遞給另一組工作人員,他們驗證這些釋義是否確實準確。該標準管道有兩個主要缺點。首先,驗證步驟會增加每個示例的成本。其次,釋義的多樣性取決于給定的種子句。論文中引入了一個新管線,如圖1b所示,該管線使用異常檢測來(1)減少要檢查的句子數量,(2)收集更多示例。
該方法使用異常檢測來選擇要檢查的句子子集:即,被排列為最有可能成為離群值的句子。通過專注于最可能是錯誤的句子,可以減少工作量。
為了嘗試增加多樣性,論文中還介紹了一個包含多輪數據收集的過程。
1.在一輪中收集的異常值復述用于播種下一輪數據收集。可以在驗證步驟中直接使用標記為正確的句子,但是盡管這些句子是正確的,但它們可能與期望的語義有所不同(例如,與期望類有所不同)。
2.為了避免下一輪的混亂,論文增加了一個步驟,在該步驟中,向工作人員顯示了另一個意圖中基于句子嵌入距離最相似的句子,并詢問新種子是否更類似于其預期意圖或替代示例。僅保留被判斷為更接近其預期意圖的種子。
該迭代過程旨在通過激發工作人員思考當前數據中未充分涵蓋的意圖措辭的方式來收集更多數據。
實驗結果與分析
所有實驗都是在英語數據上進行的。論文中進行了兩組實驗來探討論文的離群點檢測方法的有效性。首先考慮錯誤檢測,比較人工和實際數據方案中的各種排名方法。
人工數據集通過混合來自不同意圖的數據來注入噪聲。 這提供了一種控制異常數據的數量和類型的簡便方法。其中考慮的特定數據是來自生產中對話系統的20個意圖的集合。 為了生成給定意圖類別Xi的離群值,從其他意圖中隨機抽取了 p ·|Xi| 個句子(例如p = 0.04或4%)。
來自真實數據集的示例。 “我有多少錢”示例被標記為與平衡意圖非常相似的錯誤。 “我能負擔得起什么?”,“我的銀行信息”和“沒有復選框,還有更多?” 這些示例由于過于模糊和模棱兩可而被標記為錯誤。
使用平均精度(MAP)作為列表質量的總體度量。MAP是以下目的的均值。
在排名列表中選擇閾值k時,想要了解精度-召回權衡。
表1給出了在兩種設置(人工和真實)下用于錯誤檢測的MAP和Recall @ k。為了進行比較,論文考慮了四個簡單的基線:對樣本進行隨機排序(隨機),從最短到最長排序(短),從最長到最短排序(長),以及計算由一袋單詞定義的向量空間中的距離(BoW)。
在這兩種情況下,神經方法都優于基線,這證明了論文中提出的方法的有效性。
?但是,神經方法的相對性能在兩種設置之間有很大差異。 具體來說,(1)SIF在人工數據上的表現要好于未加權平均值,但在實際數據上我們看到了相反的趨勢,(2)將排名與Borda結合在一起似乎對人工數據有所幫助,但對實際數據卻無濟于事,(3 )按長度排序對真實數據出乎意料地有效,并且(4)結果往往低于真實數據(甚至更低的p值)。 最后一點表明,常用的數據設置不能完美地捕獲實踐中發生的錯誤類型。
圖2顯示了兩種方法中每種方法的分布。神經方法尤其是USE的有效性再次明確。 在實際數據中,僅考慮列表中的前20%,USE平均會覆蓋85%以上的錯誤。
一個對于USE較難的例子是“我的銀行有多少錢”,目的是要求用戶的余額。直到最后一句話,此示例看起來都是一個有效的余額請求。這些示例表明,該系統在質量上符合我們對錯誤檢測的期望。
帶插槽填充任務的示例注釋語句。 插槽名稱是(外觀順序)度量標準,金額,貨幣和日期。
第三種情況相當于圖1a中的標準管道。所有三條管道都從第一輪開始,然后在隨后的幾輪中變化,如圖4所示。每個管道收集了三輪的數據。 每種方法的最終數據集結合了從所有三個回合中收集的數據。
在這兩個任務中,都要求工作人員將每個種子語句重新措辭5次,然后將每個種子語句顯示給15個工人。 對于分類,每個意圖有3個種子句子。 對于插槽填充,定義了4個示例場景,每個場景都對應于插槽的特定組合。 對于異常值檢測模型,將Borda USE + SG的k設置為10%。
分類:表3列出了每種方法在每個回合中收集的示例數量和數據多樣性。使用論文中提出的獨特方法選擇的種子,多樣性始終較高。
表4顯示了每種訓練和測試組合的準確性得分和覆蓋范圍。最高分在對角線上-對相同的源數據進行訓練和測試。對唯一數據進行訓練會生成一個健壯的模型,該模型在所有三個測試集中均表現良好。相反,對相同或隨機數據的訓練會產生在唯一測試集上表現較差的模型。該趨勢也顯示在表格底部的覆蓋率得分中。
表7顯示了一些獨特和隨機方法產生的種子語句。這些示例說明了指標的趨勢,而隨機方法的種子通常非常相似。同時,獨特的方法產生具有語法變異的種子,并引入了完全不同的表達方式,例如“ ABA”而不是“ routingnumber”。
插槽填充:表5顯示了每個數據收集管道每輪收集的樣本數量以及集合的多樣性。 正如在分類實驗中一樣,可以觀察到唯一管道產生的數據比其他兩個管道具有更高的多樣性。
表6顯示了每種訓練測試組合的F1分數和覆蓋率。 可以再次看到了相同的趨勢,在相同或隨機的數據集上進行訓練會導致唯一數據集的結果較低,但不是相反,在覆蓋率上也會出現類似的情況,盡管差距小于分類。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的Outlier Detection for Improved Data Quality and Diversity in Dialog Systems-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有线路由器怎么安装设置 如何安装设置无线
- 下一篇: windows7台式电脑怎么连接路由器