NeurIPS 2021有哪些值得读的NLP论文?
?PaperWeekly 原創 ·?作者 |?王馨月
學校?|?四川大學
研究方向?|?自然語言處理
Information Flow in BERT
論文標題:
Influence Patterns for Explaining Information Flow in BERT
論文鏈接:
https://arxiv.org/abs/2011.00740
基于注意力的 transformer 模型(如 BERT)表現良好,但信息如何從輸入 token 流向輸出預測尚不清楚。作者引入了一種解析 transformer 性能的方法——影響模式。影響模式是通過 transformer 模型的路徑集的抽象,量化和本地化信息流到通過一系列模型節點的路徑。通過實驗,作者發現 BERT 中的大部分信息流都通過 skip 連接而不是注意力頭。作者進一步表明,跨實例模式的一致性是一種評價 BERT 性能的指標。最后,作者證明了模式比以前基于注意力和基于層的方法更能解釋模型性能。
作者通過基于梯度的歸因方法的替代視角來研究信息流問題。通過 transformer 的整個計算圖引入影響模式——基于梯度的路徑集的抽象。作者還引入了一種貪婪搜索程序,用于高效地查找代表概念關鍵信息流的模式。下圖提供了 BERT 中的影響模式示例。
圖中展示的是 SVA 任務實例的 BERT 架構(左)和 transformer 層的細節(右),用于評估模型是否選擇了正確的動詞形式,以供 [MASK] 與主題一致 。模式的示例用紅色節點突出顯示。
通過將 BERT 視為一個計算圖,作者重申了這個問題:給定一個源節點 s 和一個目標節點 t,我們尋找從 s 到 t 的重要節點模式,該模式顯示了來自 s 的影響如何從一個節點到另一個節點遍歷,最后到達 t。在較小的網絡中,可以采用從 s 流向 t 的影響量對所有路徑進行排序的詳盡方法。然而,類似的方法缺乏對像 BERT 這樣的大型模型的可擴展性。因此,作者提出了一種方法來貪婪地將搜索空間從所有可能的路徑縮小到特定模式,將抽象模式提煉為更具體的模式,保持較高的影響力。
下圖是引導模式細化 (Guided Pattern Refinement, GPR) 的圖示。從僅包含源節點和目標節點的模式 開始。在每一步,分別定義一個引導集 和 ,并在引導集中找到最大化模式影響的節點。GPR 最終返回一個模式 抽象出單個路徑。
下圖中(a)(b)是 SVA-Obj 的兩個實例的模式。(c)是基線模式 。對于每個圖,左邊是位置 i 的單詞的:分布影響 (黃色)、,(紫色)和 (藍色)。右邊是從選擇詞中提取的模式 。方形節點和圓形節點分別表示輸入和內部 embedding。在(a)和(b)中,通過 skip 連接的影響用虛線表示,注意力頭用實線表示;邊在 中標有對應的注意力頭編號(范圍從 1 到 A)。線條顏色代表影響的標志(紅色為負面,綠色為正面)。
下圖是作者對影響模式的可視化研究。(a)是來自 SP、SVA-obj 的三個從句動詞的模式。(b)是 SA 任務中兩個實例的模式。
下圖是作者實驗得出的任務表現、影響大小與模式熵的關系。
作者對幾個 NLP 任務的影響模式進行了廣泛的實證研究:主謂一致(SVA)、反身回指(RA)和情感分析(SA)。將發現總結如下:
BERT 中的很大一部分信息流通過 skip 連接而不是注意力頭,這表明注意力權重本身不足以表征信息流。實驗表明,平均而言,重要信息通過 skip 連接的頻率是注意力的 3 倍。
通過可視化提取的模式,作者展示了單詞的信息流如何在模型內部交互,并且 BERT 可能會使用語法錯誤的線索進行預測。
任務實例間影響模式的一致性反映了 BERT 在該任務上的表現。
通過消融實驗,作者發現影響模式在 BERT 中解釋信息流的準確度分別比先前的基于注意力和基于層的解釋方法高 74% 和 25%。
這篇論文提供了一種研究 transformer 可解釋性的新思路,值得閱讀。
Is Automated Topic Model Evaluation Broken?
論文標題:
Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence
論文鏈接:
https://arxiv.org/abs/2107.02173
這篇論文作者對沒有人工判斷的全自動評估的有效性提出了質疑:自動評估產生了模型之間的區別,而相應的人工評估則沒有。作者提出神經主題模型評估的實踐存在驗證差距:尚未使用人體實驗驗證神經模型的自動一致性。并且使用自動化主題建模基準方面存在巨大的標準化差距。
作者解決了主題模型評估中標準化差距和驗證差距。主要完成了以下工作:
提出了神經主題模型評估的元分析,以準確表征當前的事態;
開發了兩個廣泛使用的評估數據集的標準化、預處理版本,以及用于再現結果的透明端到端代碼;
使用相同的預處理、模型選擇標準和超參數調整優化了三個主題模型——一個經典模型和兩個神經模型;
使用評分和單詞入侵任務獲得對這些模型的人工評估;
提供了自動評估和人工評估之間相關性的新評估。
實驗所得結論表明,自動主題模型評估已經過時了,需要仔細重新考慮。
人工判斷與自動度量之間存在差異的原因之一是度量偏向于更深奧的主題。具體而言,主題的 NPMI / Cv 與報告熟悉程度的受訪者比例之間存在顯著的負相關。然而,即使在過濾掉不熟悉主題術語的受訪者之后,自動化指標仍然夸大了模型差異。
因此,主題模型評估本身似乎可以使用全新的觀點。在這一點上,Doogan 和 Buntine 在 2021 年寫道“為舊模型設計的一致性度量 [. . . ] 可能與較新的模型不兼容,”并且他們主張以語料庫探索和標記為中心的評估范式。作者認為這種重新評估的正確起點是承認任何評估和指標都是一些現實世界問題場景的抽象。
例如,在信息檢索中常見的 precision-at-10 用法是對用戶只愿意考慮檢索到的前十個文檔的場景的抽象。在未來的工作中,可以探索能夠更好地近似真實世界主題模型用戶偏好的自動化指標。
主題模型的一個主要用途是在計算機輔助內容分析中。在這種情況下,與其采取方法驅動的評估方法,不如采取需求驅動的方法。需要重新審視使用像 NYT 這樣的領域通用語料庫對主題模型進行通用評估的想法,因為沒有用于內容分析的“通用”語料庫,也沒有通用分析師。
正如 Krippendorff(2004)所表明的那樣,內容分析可以用廣泛的方式來表述,但它的實際應用始終是在一個領域中,由熟悉該領域的人使用。這一事實與通用語料庫和眾包注釋的理想實用性存在矛盾,該領域需要解決這種矛盾。我們已經將“連貫性”確定為在讀者腦海中喚出一個潛在的概念。因此,我們必須考慮相關的人類讀者是誰以及對他們來說重要的概念空間。
QCFG
論文標題:
Sequence-to-Sequence Learning with Latent Neural Grammars
論文鏈接:
https://arxiv.org/abs/2109.01135
項目地址:
https://github.com/yoonkim/neural-qcfg
使用神經網絡進行序列到序列學習已成為序列預測任務的事實上的標準。這種方法通常使用可以根據任意上下文進行調節的強大神經網絡對下一個單詞的局部分布進行建模。雖然靈活且高效,但這些模型通常需要大型數據集進行訓練,并且在旨在測試組合泛化的基準測試中可能會失敗。
作者探索了使用潛在神經語法進行序列到序列學習的另一種分層方法。首先,使用準同步上下文無關語法(quasi-synchronous context-free grammars, QCFG) 對目標序列上的分布進行建模,該語法假設一個分層生成過程,其中目標樹中的每個節點都被源樹中的節點轉換。這種節點級對齊為每個輸出部分的生成方式提供了出處和因果機制,從而使生成過程更具可解釋性。
作者還發現,與非層次模型相比,源端和目標端層次結構的顯式建模改進了組合泛化。其次,與將經常觀察到的樹結構合并到使用神經網絡的序列建模的現有工作線相比,作者將源樹和目標樹視為完全潛在的,并在訓練期間誘導它們。
最后,雖然以前關于同步語法的工作通常在手工/流水線特征上使用對數線性模型,但作者利用神經特征來參數化語法的規則概率,這使得在推導規則的組合空間上有效共享參數,而無需任何手動特征工程。作者還直接將語法用于端到端生成,而不是作為更大流水線系統的一部分。
作者將這種潛在的神經語法應用于各種領域——一種旨在測試組合泛化(SCAN)、風格遷移和小規模機器翻譯的診斷語言導航任務——并發現它與標準 baseline 相比表現可觀。
下圖顯示了作者在 SCAN 上針對各種基線的結果。雖然許多方法幾乎可以完美地解決這個數據集,但它們經常利用特定于 SCAN 的知識,這妨礙了它們直接應用于非合成領域。神經 QCFG 表現出色,同時保持領域不可知。
下圖展示了一些頻繁出現的規則示例,這些規則基于它們在添加原語(跳轉)拆分的訓練集上的 MAP 目標樹計數。許多規則是合理的,它們進一步說明了對多個非終結符的需求。例如,為了在只有一元和二元規則的語法中處理“x x x”形式的源短語,模型在與同一短語組合時以不同的方式使用非終結符 N1 和 N8。
下圖展示了從 SCAN 的添加原語(跳轉)拆分的測試集上的神經 QCFG 生成的示例。從學習到的源解析器的誘導樹顯示在左側,目標樹推導顯示在右側。節點級對齊為每個目標跨度提供了明確的出處,從而使生成過程比標準注意力機制更易于解釋。這些比對還可用于診斷和糾正系統錯誤。
例如,有時模型在根節點處錯誤地將“x {and,after} y”拆分為“x x”(或“y y”)。當我們在解碼過程中手動禁止這種拆分時,性能全面提高了 1%-2%,展示了基于語法的模型的好處,它可以通過干預推導規則集來直接操縱模型生成。
下圖是用這種方法做 Penn Treebank 上從主動到被動風格遷移任務的測試示例。從學習到的源解析器的誘導樹顯示在左側,目標樹推導顯示在右側。源樹在語言上不正確,但模型仍然能夠正確轉換輸出。
同樣作者還用這種方法實現了機器翻譯任務,可以進一步在原文中查看示例。雖然可以實現,但結果明顯低于訓練良好的 transformer 模型。
作者認為,就語法和其他具有符號組件的模型而言,與標準方法相比,這篇文章提出的方法能夠更好地表達模型決策,它們可能在開發更可控和可解釋的模型方面發揮作用,尤其是在協作人機系統的背景下。
或者,過去曾使用具有強歸納偏差的不靈活模型以各種方式引導(過度)靈活的神經模型,例如通過幫助生成額外數據或誘導結構來規范/增強模型。在這種情況下,探索如何將語法中的誘導結構與靈活的神經模型結合使用可能會很有趣。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的NeurIPS 2021有哪些值得读的NLP论文?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7驱动怎么在xp系统下安装 如何在
- 下一篇: 复制时文件过大怎么办 文件复制过大怎么处