WWW 2021 | 融合先验知识的BERT注意力模型
?PaperWeekly 原創 ·?作者|張琨
學校|中國科學技術大學博士生
研究方向|自然語言處理
Motivation
BERT 等預訓練模型使得自然語言處理等相關研究能夠充分利用大規模的無標注語料,推動了整個自然語言處理的發展。那么接下來如何進一步提升 BERT 等模型的效果是研究人員關注的一個重點。除了結構,訓練方式等,一個重要的分支就是使用外部知識,利用外部知識提升模型的效果。
常規做法是增加一個額外的任務幫助模型利用外部知識,這種存在一個問題,額外的任務會影響 BERT 本身的結構和參數,因此提升效果是不穩定的,有沒有更加簡單有效的方法提升模型的效果呢?
針對這個問題,本文針對 BERT 在文本語義匹配任務上進行了一個深入的研究,并設計了一種簡單有效的外部知識利用方法。
論文標題:
Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks
論文作者:
Tingyu Xia / Yue Wang / Yuan Tian / Yi Chang
論文鏈接:
https://arxiv.org/abs/2102.10934
代碼鏈接:
https://github.com/xiatingyu/Bert_sim
Method
為了分析如何引入外部知識,引入何種外部知識,作者首先對 BERT 進行了驗證分析,分析 BERT 學到了哪些知識,是在哪些層中學習到的,然后在有針對性的設計外部知識以及知識引入方法。本文也根據作者的這個思路來介紹這篇文章。
2.1 BERT結構分析
在這部分,作者主要進行了兩個方面的問題,數據增強分析,逐層表現分析。
2.1.1 數據增強分析
這部分的主要思想就是通過對比 BERT 在不同數據增強的數據上的表現,如果某個數據增強策略能夠提升 BERT 的效果,那么就說明 BERT 并沒有學習到這部分知識,還需要增強;否則說明 BERT 已經學習到這些知識了。
為此,作者選擇了多種數據增強的方法,包括 Split and swap,Add random word ,Back translation ,Add high-TfIdf word ,Delete low-TfIdf word ,Replace synonyms 。相關的實驗結果如下圖所示:
其中虛線為原始 BERT 模型的基線效果,從圖中可以看出在所有的數據增強方法中,除了替換同義詞(Replace synonyms )之外,其他方法都導致模型效果下降,說明了 BERT 在同義詞理解和利用方面仍存在一定的欠缺,可以使用這部分知識進行提升(P.S. 這種方法可能會有一點問題,因為其他數據增強的方法可能會改變語義,而同義詞替換并不會改變語義,這點仍值得商榷)
2.1.2 逐層表現分析
這部分相對來說簡單一些,作者固定 BERT 的參數,然后分別抽取每一層的結果,然后利用一個簡單的分類器進行文本語義匹配分類,通過實驗結果看哪一層的效果最好,效果好說明這層學習到了知識,效果不好說明該層仍需要一定的改進和提升,相關實驗結果圖如下:
從實驗結果看模型中間層的輸出結果能夠取得最好的效果,而底層和頂層的效果都不太好。這其實也很好解釋,底層還沒有真正學習到有用的知識,中間層學習的是相對通用的知識,而頂層的學習到底是任務相關的知識(NSP, MLM)。因此,從這個實驗結果中可以看出,如果要增加額外知識的話,應該增加到底層。
2.2 外部知識引入
經過前一步的分析,本文已經大致確定了如何利用外部知識的思路,即使用同義詞知識增強 BERT 模型底層的表現,從而提升模型的效果,因此作者提出了利用詞相似知道底層注意力的計算。具體如下:
2.2.1 Word Similarity Matrix
輸入兩個句子之后,構建一個針對兩個句子的詞相似矩陣,其中每個元素值的確定方法:如果對應的兩個詞在 WordNet 中是同義詞,那么值就為 1,如果不是,那就是 0,同樣,對已一些停用詞,或者這兩個詞并沒有在 WordNet 中發現,均用 0 表示,然后使用在 WordNet 中的拓撲距離對整個詞相似矩陣進行調整,具體可以參見(Verbs semantics and lexical selection)
2.2.2 Knowledge-Guided Attention
該步主要是將得到的詞相似矩陣用于底層注意力計算的修正,具體而言,BERT 對輸入的句子進行處理,然后計算注意力得分的過程可以表示為:
而作者直接將得到的詞相似矩陣加到了 score 的計算過程中,這樣公式2就被修正為如下形式:
通過這種形式就實現對外部知識的充分利用。該過程還可以使用下圖表示:
需要說明的是相似度矩陣構建的方式可以有很多種,能夠根據不同的需求進行不同的調整,是非常靈活的。
Experiments
為了驗證模型的效果,作者分別在多個語義匹配的數據集上進行了相關的實驗,例如 MRPC, STS-B, QQP, Twitter-URL,相關的實驗結果如下圖所示:
還是可以很直觀說明本文提出的方法的效果的。另外作者為了更好的驗證提出的方法的效果,相同的操作也針對 ESIM 模型進行了驗證,這里就不在舉例了。
Conclusion
本文是 WWW 2021 的一篇文章,文章穩扎穩打,從模型分析引入,根據分析的結果得出改進方法,然后進行改進,接著進行改進方法的驗證,有理有據,是一篇值得深挖和學習的文章。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的WWW 2021 | 融合先验知识的BERT注意力模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无法启动电脑的启动盘怎么做 无法启动电脑
- 下一篇: bios里怎么设置集成声卡 bios设置