论文浅尝 | 面向多语言语义解析的神经网络框架
論文筆記整理:杜昕昱,東南大學本科生。
來源:ACL2017
鏈接:https://aclweb.org/anthology/P17-2007
?
論文訓練了一個多語言模型,將現有的Seq2Tree模型擴展到一個多任務學習框架,該框架共享用于生成語義表示的解碼器。該模型能夠將來自多種不同語言的自然語言句子解析為它們相應的形式語義表示。論文中報告了多語言查詢語料庫的評估結果,并介紹了一個新的ATIS語料庫的多語言版本。
?
Introduction
多語言語義解析——將來自多種不同語言的自然語言句子映射到它們相應的形式語義表示的任務。多語言場景有如下兩種:
1.? 單源類型,輸入的一句話由同一種語言組成。
2.? 多源類型,輸入的一句話由多種語言的并列語句組成。
針對第二種類型的探索,只有過將多種單語言模型組合在一起的工作,單對于每種語言的單獨訓練會忽視源語言之間的共享信息,而且對每種語言去訓練,調整,構建一個新的模型也是不方便的。
本論文提出一個接受輸入多語言組成的句子的解析體系,將現有的Sequence-to-Tree模型擴展到一個多任務學習框架(神經網絡機器翻譯)。論文模型由多個編碼器組成,一個用于每種語言,另一個解碼器跨源語言共享,用于生成? 語義表示。通過這種方式,模型可能受益于擁有一個能夠很好地跨語言工作的通用解碼器。這樣模型可以受益于一個? 在跨語言方面有良好表現的解碼器。直觀來說,該模型鼓勵每種源語言編碼器為解碼器找到一個通用的結構化表示形式,論文還進一步修改了注意力機制,整合多源信息。
論文貢獻:
1.???? 研究了兩種多語言場景中的語義解析
2.???? 在Sequence-to-Tree的結構中加入新穎的拓展使得可以模型在語義解析中可以結合多語言的信息
3.????? 發布了一個新的ATIS語義數據集,它用兩種新語言進行了注釋
?
Model
與傳統語義分析模型(為每個語言單獨訓練語言解析器)不同,論文中提出將N個編碼器結合到一個模型中。這個模型將n種語言的句子編碼為一個向量,之后用一個共享的解碼器把已編碼的向量解碼到它相應的邏輯形式。輸入句子有兩種形式(單語言和并列多語言)。編碼器被實現為具有長短時記憶(LSTM)單元的單向RNN,以自然語言序列作為輸入。
同之前的多任務框架(neural MT),論文中為每個語言都構建了編碼器(),對于第n種語言,他在第時間第t步更新隱藏向量:
公式(1) 是LSTM函數 是嵌入矩陣行向量包含令牌在第n個語言的來源。
如果像傳統方式(Seq2Seqmodel)一樣,線性生成每一個目標令牌,會忽略邏輯形式上的層次結構,Sqe2Tree模型采用了自頂向下生成邏輯形式的解碼器,定義了一個“non-terminal”令牌來表示子樹。在樹的每個深度,邏輯? 形式都是按順序生成的,直到輸出序列結束標記。
與單語情況不同,論文定義了一個共享解碼,在計算解碼器狀態時加入父非終端信息,其中是LSTM方程):
注意力機制:
其中U,V,W是權重矩陣。最終,模型被訓練到使下面的條件似然函數最大:
其中(X,Y)表示訓練集D中訓練數據中的標注的句子-語義對。在這兩種多語言設置(Single-Source Setting&Multi-Source Setting,下面介紹)中,我們對編碼器和解碼器使用上述相同的公式。每個設置的不同之處在于:(1)編碼器狀態的初始化,(2)上下文向量的計算,(3)訓練過程。
?
Single-Source Setting
這種設置的輸入為來自第n種語言的語句,如(a)所示,其中模型正在解析印度尼西亞輸入,而英語和漢語處于非活躍狀態。
先要把解碼向量投影到一個適合解碼的維度,,其可以是一個仿射變換,類似的,可以在計算注意力分數之前做:,然后計算上下文向量為第n個編碼器中隱藏向量的加權和。
把作為等式3中的計算,在這個設置中論文提出了兩種變體
為每種語言定義獨立的權值矩陣
三個權重矩陣為跨語言共享的,本質上減少了N倍的參數數量
訓練數據是由N種語言的句子-語義對的組合組成的,其中源語句不一定是平行的。論文中實現一種調度機制,在訓練? 期間循環所有語言,但每次都只選擇一種語言。模型參數在從一種語言進行批處理后更新,然后再轉移到下一種語言。這種機制可以防止特定語言的過度更新。
?
Multi-Source Setting
在這個情況下,輸入是N種語言中語義等價的句子。圖(b)描述了模型同時解析英語、印度尼西亞語和漢語的場景。灰? 色模塊是一個組合模塊。
解碼器初始狀態由N個編碼器的最終狀態來確定,,這里通過最大池來實現 \phi。論文中給出兩種計算 c_t 的方式,集成多個編碼器源端信息,首先考慮單詞級組合,可以在每個一步時間步長對N進行編碼,如下所示:
或者在句級組合中,首先用與等式(6)和(7)相同的方法計算每種語言的上下文向量。然后,我們對N個上下文向量進行簡單的串聯:
與單源情況不同,訓練模型由路并行句子-語義組成。即每個訓練實例由N個語義等價的句子及其對應的邏輯形式組成。
?
Experiment&Result
論文中在兩個多語言基準數據集上進行了實驗,數據集GEO是語義分析的標準基準評估,該多語言版本包含880個自? 然語言查詢實例,涉及四種語言(英語、德語、希臘語和泰國語)的美國地理事實( Jonesetal.,2012)。文中使用的標準分割包括600個訓練示例和280個測試示例。ATIS數據集包含對飛行數據庫的自然語言查詢。
Result:
Table1比較了單語言Seq2Tree模型(SINGLE)和論文中的多語言模型(MULTI)在single-source? setting下獨立與共享參數(single-setting中的兩種模型變體)的表現:
平均而言,多語言模型(論文中)的兩種變體在GEO上的準確率比單語模型平均準確率高出1.34%,其中共享參數(第二種變體)表現得對GEO有幫助。結果發現在ATIS上的平均表現主要提升在中文和印尼語。還發現雖然包含進英語通常會對其他語言有幫助,但可能會影響他自身的表現。
Table2展示了通過對GEO結合3到4種語言,針對ATIS結合2到3種語言的多源解析器的平均表現。對于排名(Ranking)實現,通過選擇最高概率的值的方法來聯合每個語言的預測結果。觀察到模型級的系統組合能夠比輸出? 級的平均性能更好(GEO上的平均性能高達4.29%)。在單詞級和句子級組合在兩個數據集上顯示了相當的性能。可以? 看出,當在系統組合中加入英語時,這種優勢更加明顯。
?
Analysis
對多語言模型的定性分析。Table3顯示了使用ATIS中的三種語言訓練單語模型(SINGLE)和使用句子級組合的多語模型(MULTI)的例子。例子展示了多語言模型成功解析3個輸入句子到正確的邏輯形式,然而單個的模型無法做到。
Figure2顯示了在解析多源設置(MULTI)的ATIS時生成的對齊。對齊矩陣中的每一個單元對應?(由等式6計算得到)。語義相關的詞被對齊如: ground (en), darat (id), 地面 (zh) 和 ground transport。這說明該模型可以共同學習這些對應關系。
Table4總結了基線和多語言模型中的參數數量,單語(SINGLE)和排序(RANKING)中的參數個數等于單語成分中參數個數的和。可以看出,多語言模型的參數比基線小50-60%左右。
Conclusion
論文提出了一種多語言語義分析器,將Seq2Tree模型拓展到一個多任務學習框架。通過實驗發現多語言模型在平均?表現上優于1.單語模型在單源設置(single-source setting)下的表現2. 綜合排名(Ranking)在多源設置(multi- source)下的表現。
?
?OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向多语言语义解析的神经网络框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ISWC2021 | 当知
- 下一篇: 会议交流 - CNCC 技术论坛 | N