AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取
論文標(biāo)題:
Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction
論文作者:
李東方,戶保田,陳清財(cái),徐土杰,陶靖樅,張宇楠,鮑建竹,梁斌,孫婧伊,張義策,楊敏,徐睿峰
論文鏈接:
https://arxiv.org/abs/2112.10424
代碼鏈接:
https://github.com/crazyofapple/AT-BMC
論文簡(jiǎn)介
神經(jīng)網(wǎng)絡(luò)已經(jīng)證明了它們?cè)谖谋痉诸惾蝿?wù)上的卓越預(yù)測(cè)能力,特別是結(jié)合基于預(yù)訓(xùn)練的語(yǔ)言模型時(shí)。然而,與邏輯回歸和決策樹等傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,它們更像是一個(gè)黑盒。眾所周知,要理解神經(jīng)網(wǎng)絡(luò)模型產(chǎn)生特定預(yù)測(cè)的原因是很困難的。一種實(shí)用的方法是從輸入中提取預(yù)測(cè)的證據(jù)(rationales)。證據(jù)可以被定義為文本片段或輸入文本的子集。其假設(shè)是,僅從證據(jù)中就可以做出正確的預(yù)測(cè)。換句話說(shuō),證據(jù)應(yīng)該足以支持模型的預(yù)測(cè)。我們的工作也屬于這個(gè)范圍,其目標(biāo)是通過(guò)提取與預(yù)測(cè)密切相關(guān)的證據(jù)來(lái)實(shí)現(xiàn)更好的預(yù)測(cè)性能和模型的可解釋性。?
以前的工作提出使用流水線(pipeline)的方法,任務(wù)預(yù)測(cè)分兩步進(jìn)行:解釋階段和隨后的預(yù)測(cè)階段。任務(wù)的挑戰(zhàn)是如何在提取證據(jù)的條件下達(dá)到優(yōu)異的分類表現(xiàn)。大多數(shù)采用這種框架的方法往往只依賴任務(wù)標(biāo)簽,他們從解釋階段的輸入中抽取證據(jù)。例如,這些模型通過(guò)提出基于強(qiáng)化學(xué)習(xí)方法和重參數(shù)化技術(shù)的優(yōu)化程序來(lái)模擬難以解決的采樣步驟,這可能導(dǎo)致模型對(duì)超參數(shù)敏感,而且需要復(fù)雜的訓(xùn)練過(guò)程。
相反,我們對(duì)分類似然和輸入實(shí)例的證據(jù)似然同時(shí)進(jìn)行優(yōu)化。雖然這是一個(gè)相對(duì)直接的優(yōu)化解釋階段模型的方法,但這項(xiàng)任務(wù)至少有兩個(gè)挑戰(zhàn)。首先,以前的工作容易受到不同類型的對(duì)抗性攻擊。例如,如表 1 所示,一個(gè)分類器在真實(shí)標(biāo)簽保持不變的對(duì)抗下受到了影響。如果在輸入中加入小的擾動(dòng)會(huì)修改模型的預(yù)測(cè),我們就不能相信和解釋模型的輸出。
我們通過(guò)使用魯棒性測(cè)試進(jìn)一步分析現(xiàn)有的方法遭受的文本攻擊,該測(cè)試對(duì)訓(xùn)練好的分類模型進(jìn)行模型無(wú)關(guān)的攻擊。其次,明確的邊界信息被忽略了,導(dǎo)致不準(zhǔn)確的提取。例如,“interesting”和 “inspiring”是文本 “this film is interesting and inspiring.”證據(jù)的邊界,而 “and ”和“.”是一般的標(biāo)記,其表示應(yīng)與情感詞不同。此外,使用證據(jù)來(lái)訓(xùn)練解釋階段的模型并不用考慮來(lái)自任務(wù)的監(jiān)督信號(hào)。
表1:?對(duì)抗攻擊的例子。其中標(biāo)簽發(fā)生改變,而證據(jù)文本不變
為了解決這些挑戰(zhàn),我們提出了一個(gè)聯(lián)合分類和證據(jù)提取框架 AT-BMC,其中任務(wù)預(yù)測(cè)和證據(jù)提取是通過(guò)混合對(duì)抗訓(xùn)練(AT)和邊界匹配約束(BMC)聯(lián)合學(xué)習(xí)的。首先,我們?cè)陔x散文本空間和嵌入空間中添加擾動(dòng),以提高模型的泛化和穩(wěn)健性。一方面,我們?cè)谠~的層面上產(chǎn)生對(duì)抗性的例子,同時(shí)保持證據(jù)不變。擾動(dòng)也保持了預(yù)測(cè)的不變。另一方面,本文提出的嵌入空間的對(duì)抗性訓(xùn)練在計(jì)算效率和訓(xùn)練平穩(wěn)性方面上比標(biāo)準(zhǔn)對(duì)抗訓(xùn)練更加完善。
其次,我們通過(guò)對(duì)邊界位置的建模來(lái)考慮匹配約束,這使得模型能夠進(jìn)一步關(guān)注邊界相關(guān)的區(qū)域。邊界約束的主要思想是使序列標(biāo)簽?zāi)P驮诙ㄎ粚?shí)體時(shí)考慮邊界信息。通過(guò)將預(yù)測(cè)的合理片段的起始索引與相應(yīng)的結(jié)束索引相匹配,全局序列標(biāo)簽信息與局部區(qū)域感知信息相融合。此外,我們通過(guò)標(biāo)簽嵌入使提取模型利用分類的結(jié)果(建立兩者的關(guān)聯(lián))。
我們?cè)趦蓚€(gè)基準(zhǔn)數(shù)據(jù)集(即 Movie Review 和 MultiRC)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,AT-BMC 在分類和證據(jù)提取方面大幅度超過(guò)了基線。魯棒性分析進(jìn)一步表明,AT-BMC 可以有效地提高模型的魯棒性,在更強(qiáng)的對(duì)抗攻擊下,攻擊成功率從 96% 下降到 27%。我們的代碼已開源。
可解釋與對(duì)抗魯棒性的相關(guān)工作
之前的工作表明,神經(jīng)網(wǎng)絡(luò)很容易被攻擊,這自然帶來(lái)了一個(gè)問(wèn)題:是否有必要應(yīng)用可解釋性技術(shù),來(lái)解釋模型的預(yù)測(cè)行為是否會(huì)受到攻擊的影響。之前的一些工作從經(jīng)驗(yàn)上觀察到,在計(jì)算機(jī)視覺(jué)領(lǐng)域中,魯棒的模型可以更容易解釋。而盡管最近的一些研究專注于將可解釋性和對(duì)抗的魯棒性聯(lián)系起來(lái),但現(xiàn)在并沒(méi)有模型明確聲明同時(shí)具備這兩種特性。另一方面,我們的目標(biāo)是專注于理解文本分類任務(wù)中兩者之間的聯(lián)系,我們希望它能為自然語(yǔ)言處理任務(wù)中此類方法的未來(lái)發(fā)展帶來(lái)啟示。
任務(wù)定義
本文的目的是設(shè)計(jì)一個(gè)能夠產(chǎn)生準(zhǔn)確預(yù)測(cè)的模型,并提供密切相關(guān)的提取性片段(即支持性證據(jù))作為預(yù)測(cè)的潛在原因。以情感分類為例,對(duì)于 “titanic is so close to being the perfect movie...”這個(gè)文本,它的預(yù)測(cè)標(biāo)簽是正面的,而這個(gè)預(yù)測(cè)的證據(jù)之一是 “titanic is so close to being the perfect movie...”。因此,帶有證據(jù)提取的文本分類可以被形式化為:給定詞序列單詞輸入??, 其中??是序列長(zhǎng)度,??代表是第 i 個(gè)詞。?我們的目標(biāo)是推斷出任務(wù)的標(biāo)簽???, 并且對(duì)每個(gè)詞分配一個(gè) 0/1 的標(biāo)簽???,代表是否是證據(jù)的一部分。?對(duì)應(yīng)的參照標(biāo)簽表示為??,人類標(biāo)記的證據(jù)表示為??,兩者都用于訓(xùn)練。在這里,證據(jù)是詞的序列,因此一個(gè)潛在的證據(jù)是輸入序列的一個(gè)子序列。值得注意的是,一個(gè)文本樣本可能包含多個(gè)不重疊的子序列作為證據(jù)。
整體框架
我們的基本框架遵循多任務(wù)學(xué)習(xí)(MTL),應(yīng)用在這兩個(gè)任務(wù):(1)證據(jù)提取和(2)實(shí)際預(yù)測(cè)任務(wù)。我們采用 MTL 的共享編碼器結(jié)構(gòu),兩個(gè)任務(wù)共享相同的編碼器,但是解碼器不同。如圖 1 所示,AT-BMC 包含以下 4 個(gè)部分:
(a) Prediction Network:根據(jù)輸入文本進(jìn)行分類預(yù)測(cè);?
(b) explanation generation network:根據(jù)輸入文本和預(yù)測(cè)的分類標(biāo)簽使用 CRF 層解碼器抽取證據(jù);
(c) 混合對(duì)抗訓(xùn)練(Mixed Adversarial Training):使用離散對(duì)抗方法對(duì)輸入文本進(jìn)行改動(dòng),以及引入嵌入空間的對(duì)抗訓(xùn)練,來(lái)增強(qiáng)模型的魯棒性;?
(d) 邊界匹配約束(Boundary Constraint):用 start、end 雙指針做邊界限制來(lái)促進(jìn)模型更準(zhǔn)確地定位證據(jù)邊界。
圖1: 混合對(duì)抗訓(xùn)練和邊界匹配約束的聯(lián)合分類和證據(jù)提取 AT-BMC 的總體架構(gòu)
混合對(duì)抗訓(xùn)練
由于對(duì)抗性攻擊的搜索空間很大,而標(biāo)記的證據(jù)有限,我們對(duì)有證據(jù)的樣本進(jìn)行基于離散對(duì)抗性攻擊的數(shù)據(jù)增強(qiáng)。通過(guò)引入現(xiàn)有樣本的詞級(jí)別的擾動(dòng)版本,我們可以遞歸地重復(fù)使用這種擴(kuò)增方法,以顯著擴(kuò)大訓(xùn)練數(shù)據(jù)集。為了簡(jiǎn)單起見,這里的驗(yàn)證只考慮為每個(gè)樣本增加一個(gè)新的編輯文本。此外,考慮到證據(jù)的標(biāo)簽保留,擾動(dòng)只包括那些在證據(jù)之外的句子部分。除了直接對(duì)輸入文本進(jìn)行擾動(dòng)外,我們還利用在嵌入空間上操作的對(duì)抗性訓(xùn)練作為有效的正則化,以改善共享編碼器的泛化,減少魯棒性錯(cuò)誤。
與標(biāo)準(zhǔn)訓(xùn)練相比,K 步 PGD 需要通過(guò)網(wǎng)絡(luò)進(jìn)行 K 次前向-后向傳播,這在計(jì)算上是很昂貴的。此外,K 步之后只有最后一步的擾動(dòng)用于模型參數(shù)更新。我們遵循 FreeLB 中的自由對(duì)抗訓(xùn)練框架,進(jìn)行多次 PGD 迭代來(lái)構(gòu)建對(duì)抗嵌入,并在每次迭代中迭代出累積參數(shù)梯度。之后,通過(guò)虛擬創(chuàng)建一個(gè)采樣小批次,利用累積梯度有效地逐一更新模型參數(shù) θ。我們?cè)谒惴?1 中提供了嵌入空間的對(duì)抗性訓(xùn)練的細(xì)節(jié)。
算法1: 嵌入空間對(duì)抗訓(xùn)練算法
邊界匹配約束
在對(duì)于證據(jù)提取,CRF 解碼器可以捕獲開始/結(jié)束的邊界。由于 CRF 在給定觀察序列特征的情況下學(xué)習(xí)標(biāo)簽序列的條件概率,因此可以將其目標(biāo)函數(shù)視為以觀察 X 為條件的最大對(duì)數(shù)似然目標(biāo)函數(shù)。但是,CRF 存在生成非法標(biāo)簽序列的局限性,因?yàn)樗膭?lì)合理的標(biāo)簽序列,而對(duì)于不合理的過(guò)渡懲罰較低。因此,我們使用邊界約束來(lái)鼓勵(lì)它在定位邊界時(shí)更加準(zhǔn)確。邊界約束的基本思想是將證據(jù)文本的預(yù)測(cè)起始索引與其對(duì)應(yīng)的結(jié)束索引匹配。
文本分類和證據(jù)抽取的性能比較:如表 2 所示,我們的模型在兩個(gè)數(shù)據(jù)集上都比以前的模型有所提高。在證據(jù)提取任務(wù)中,AT-BMC(BERT-base)和 AT-BMC(RoBERTa-large)在電影評(píng)論數(shù)據(jù)集上比以前的模型提高了 4.3% 和 13.3 % F1。此外,在 MultiRC 數(shù)據(jù)集上,我們的方法也將 F1 提高了 3.3% 和 10.8%。另一方面,AT-BMC(BERT-base)在準(zhǔn)確性方面分別提高了?0.8% 和 1.3%,這可能主要來(lái)自兩個(gè)方面:一個(gè)是多任務(wù)學(xué)習(xí),另一個(gè)是對(duì)抗性訓(xùn)練。
表2:兩個(gè)文本分類數(shù)據(jù)集任務(wù)性能和證據(jù)抽取表現(xiàn)的對(duì)比
在不同攻擊方法下模型的魯棒性:我們沒(méi)有用可解釋性穩(wěn)健性來(lái)衡量穩(wěn)健性,在這種情況下,證據(jù)應(yīng)該對(duì)輸入中的小擾動(dòng)不變。我們考慮了三種不同的攻擊方法(即 TextFooler、TextBugger 和 PWWS)來(lái)測(cè)試穩(wěn)健性。在測(cè)試中,我們關(guān)注的是攻擊的成功率。TextFooler 和 TextBugger 使用混合的方法(如單詞嵌入距離、部分 Pos tag 標(biāo)簽匹配),并設(shè)計(jì)了一個(gè)單詞替換機(jī)制來(lái)攻擊現(xiàn)有模型;PWWS 使用單詞重要性排名來(lái)替換部分句子,其中單詞突出性和同義詞交換分?jǐn)?shù)被用來(lái)計(jì)算單詞重要性。
如表 3 所示,文章提出的模型在不同的攻擊強(qiáng)度下始終優(yōu)于基準(zhǔn)方法。總的來(lái)說(shuō),在多種攻擊方法中,AT-BMC 在所有指標(biāo)上都取得了最好的表現(xiàn)。值得注意的是,在 PWWS 攻擊下,AT-BMC 以 69.75% 的成功率大大超過(guò)了基線。我們將此歸功于 AT-BMC 通過(guò)對(duì)抗性訓(xùn)練獲得的通用性。有趣的是,從第二欄的結(jié)果來(lái)看,使用聯(lián)合框架似乎也能提高該領(lǐng)域的通用性和穩(wěn)健性。我們還記錄了被替換為攻擊的單詞的百分比,作為平均單詞修改率。我們的方法需要更多的修改攻擊查詢,而且在所有的攻擊下都有更高的詞修改率。這表明該模型更難被攻擊,因此需要更多的詞被替換。
在圖 2 中,我們比較了不同方法在驗(yàn)證集下的評(píng)估曲線。相對(duì)于其他沒(méi)有進(jìn)行對(duì)抗性訓(xùn)練和邊界匹配約束的方法,我們的方法的變化幅度要小得多,而且隨著訓(xùn)練時(shí)間的變化,它逐漸收斂。這說(shuō)明我們的方法在訓(xùn)練過(guò)程中強(qiáng)化了模型在驗(yàn)證集上的魯棒性,從而使其在訓(xùn)練中更加穩(wěn)定,方差更小,從而緩解了現(xiàn)有方法中的超參數(shù)敏感性和高方差。
表3:在三種攻擊方法下的分類性能對(duì)比
圖2:Movie Review的驗(yàn)證集上F1曲線
有限證據(jù)標(biāo)注下模型的表現(xiàn):我們的方法也可以應(yīng)用在只有有限的注釋例子的情況下。如圖 3 所示,我們比較了訓(xùn)練集中不同比例的人類標(biāo)記的證據(jù)的模型的性能。我們發(fā)現(xiàn),當(dāng)只有 5% 的帶有標(biāo)注信號(hào)的例子時(shí),模型在測(cè)試集上的提取精度達(dá)到了 40% 以上。隨著這些標(biāo)記實(shí)例比例的增加,模型的性能也隨之提高。由于這些標(biāo)注的人工標(biāo)注是耗時(shí)耗力的,這可能意味著我們的方法可以在沒(méi)有很多人工標(biāo)注的情況下穩(wěn)定地生成合理的解釋。
圖3:不同攻擊策略下的節(jié)點(diǎn)分類性能
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。