EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界
?PaperWeekly 原創(chuàng) ·?作者|張一帆
學校|華南理工大學本科生
研究方向|CV,Causality
論文標題:
Evaluating Models' Local Decision Boundaries via Contrast Sets
論文鏈接:
https://arxiv.org/abs/2004.02709
數(shù)據(jù)集:
https://allennlp.org/contrast-sets
Main Contribution:訓練集與測試集 i.i.d 的假設使得模型很難泛化,文章提出了在原始測試集構(gòu)建 contrast test set 的方法,可以真實的評估模型的語言能力。
Motivation
這里用了一個 toy example 和一個真實示例來表示作者想要提出并解決的問題。
Toy Example
考慮二維的情況,下圖中的兩分類問題需要一個非常復雜的 decision boundary。
但是在很多情況下,由于采樣的 biased,我們很可能得到如下的數(shù)據(jù)集:
網(wǎng)絡通過一個很簡單的 decision boundary 就可以將它們分類,而由于訓練測試數(shù)據(jù)集獨立同分布,雖然這個 decision boundary 非常差,但它在測試集表現(xiàn)得非常好。理想情況下,如果我們完整采樣整個數(shù)據(jù)集,所有問題都迎刃而解,但這顯然是很難做到的。為了正確的測試模型的能力,作者提出了對測試集做 perturbation 的方法:對測試集的每一個實例,我們生成一系列與之類似的測試樣本(Contrast Set:下圖中的灰色圓圈)。
Complex NLP Task
我們很難用圖把 NLP task 中存在的問題進行描述,但是有很多工作支撐了這一觀點。比較有意思的示例為在 SNLI 數(shù)據(jù)集中,表明單詞"睡覺","電視"和"貓"幾乎從來沒有同時出現(xiàn)數(shù)據(jù)中,但是它們經(jīng)常出現(xiàn)在 contradiction 的例子中。所以 model 很容易的學到“同時出現(xiàn)'睡覺'和'貓'的句子都是 contradiction sentence,并且這一分類標準工作得很好”。?
在初始數(shù)據(jù)收集過程中完全消除這些差距將是非常理想化的,在一個非常高維的空間中,語言有太多的可變性。相反,該文使用 Contrast Set 來填補測試數(shù)據(jù)中的空白,從而給出比原始數(shù)據(jù)提供的更全面的評估。
Contrast sets
假設我們現(xiàn)在為測試樣本 構(gòu)建 Contrast Set,有兩個要點 (i) 構(gòu)建樣本距離與 ?小于某個閾值。(ii) Label 與 不一致。下圖是在 NLVR2 數(shù)據(jù)集上的一些實例,在這里,句子和圖像都通過一些很簡單的方式進行修改(例如,通過改變句子中的一個詞或找到一個相似但有區(qū)別的詞),從而使輸出標簽發(fā)生變化。
我們需要注意,contrast set 和 adversarial examples 是不一樣的,對抗樣本的目的是對句子/圖像做 perturbation,但是保持原標簽不變。?
不過文章中如何計算樣本距離,閾值的確定,label 是否發(fā)生變化,都是由 expert 給出的。
How to Create Contrast Sets
作者用了三個數(shù)據(jù)集來展示 Contrast Sets 的構(gòu)造過程。
DROP
DROP 是一個閱讀理解數(shù)據(jù)集,旨在涵蓋對段落中的數(shù)字進行組合推理,包括過濾、排序和計數(shù),以及進行數(shù)值運算。數(shù)據(jù)主要來自 (i) Wikipedia (ii) 美國足球聯(lián)賽的描述。(iii) 人口普查結(jié)果說明。(iv) 戰(zhàn)爭摘要。作者發(fā)現(xiàn)數(shù)據(jù)集中存在明顯的 bias,比如一旦問題是"How many...",結(jié)果很多情況都是 2。關于事件順序的問題通常遵循段落的線性順序,而且大部分問題不需要理解。?
作者從三個方面改進這個數(shù)據(jù)集:
關于足球聯(lián)賽的問題往往需要推理和比較(比如詢問兩場比賽得分的差值),但是其他類型的數(shù)據(jù)很少需要推理比較,因此作者為他們提供額外的需要推理比較的問題;
將問題的部分語義顛倒,類似于 shortest 變?yōu)?longest, later 變?yōu)?earlier, How many countries 變?yōu)?which countries 等等;
改變事件發(fā)生的順序,使得與事件順序相關的問題推理難度增加。
NLVR2
給模型一對圖像與一個句子,判斷這句話正確與否。這個數(shù)據(jù)集的特點在于 compositional reasoning,我們需要模型理解圖像中的物體的屬性,物體與物體的關系,物體與場景的關系。?
我們通過修改句子或用網(wǎng)絡搜索中獲得自由許可的圖片替換其中一張圖片來構(gòu)建 NLVR2 的 Contrast Set。?
比如將句子"The leftimage contains twice the number of dogs as theright image"改為“The left image containsthree timesthe number of dogs as the right image”。或者對一個圖像對,將原本 4 條狗的圖像換成其他數(shù)目。也可以對一些量詞比如"at least one"改為"exactly one",或者實體"dogs"改為"cats",或者屬性"yellow"改為“red”。
UD ?Parsing?
這是一個 dependency parsing 的數(shù)據(jù)集。作者想要通過這個數(shù)據(jù)集證明 Contrast set 不僅在 high-level 的 NLP 任務中有效,也在語義分析的任務中有效。具體方法可以查看原文。
可以看到,再加上 Contrast Set 之后,SOTA models 的性能都有了顯著的下降。
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国怎么发行货币 通过三种途径入市
- 下一篇: AI顶会直播丨深度学习顶级会议ICLR