上海科技大学ACL2018高分论文:混合高斯隐向量文法
作者丨趙彥鵬、張力文、屠可偉
單位丨上海科技大學
研究方向丨NLP、機器學習
自然語言處理領域的傳統方法著重于處理離散符號之間的復雜結構,但近幾年隨著深度學習的興起,出現了很多將符號向量化結合神經網絡的方法。而將深度學習方法與傳統 NLP 方法有機結合將會是自然語言處理領域未來的一個重要方向。
本文介紹了一篇來自于上海科技大學的 ACL 2018 論文“Gaussian Mixture Latent Vector Grammars”。該論文將傳統的上下文無關文法與深度學習中的符號向量化思想相結合,提出了一種全新的“隱向量文法”,拓展了前人在文法向量化方面的工作,并獲得了不錯的實驗效果。?
該論文在 ACL 2018 審稿中獲得了 6/5/5 的高分,是 ACL 2018 為數不多獲得 6 分評審的長文。按 ACL 2018 的官方說明,6 分意味著審稿人認為這篇論文有可能改變整個領域并值得推薦最佳論文。據官方統計,ACL 2018 長文評審中僅有 0.4% 是 6 分,即總共只給出了約 12 個 6 分。
■?論文 | Gaussian Mixture Latent Vector Grammars
■ 鏈接 | https://www.paperweekly.site/papers/2033
■ 源碼 |?https://github.com/zhaoyanpeng/lveg
背景
成分文法分析(Constituency Parsing)旨在得到句子的結構化表示,即得到句子所對應的語法樹。語法樹蘊含著一句話的生成過程,對于機器翻譯、自然語言理解等任務大有裨益。?
在成分文法分析中,最簡單的模型是概率上下文無關文法(Probabilistic Context Free Grammars),但是這種模型假設文法規則的概率和其所在的上下文位置無關。因此,其在文法分析中表現效果很差。
為了提升文法分析精度,現有的方法嘗試盡可能減弱上下文無關假設的錯誤影響。比較有代表性的方法有句法標注(Johnson. 1998; Klein et al. 2003),即在語法樹中的句法類別上標注出其父節點或者兄弟節點的句法信息;詞匯標注(Collins. 1997; Charniak. 2000),即在語法樹中的句法類別上標注出其對應的句子成分的中心詞。這些方法的基本思路是細化句法類別,但是受限于手動標注或者數據稀疏性問題。
因此,之后出現了自動學習細粒度句法類別的方法,即隱變量文法(Latent Variable Grammars (Matsuzaki et al. 2005; Petrov et al. 2007))。隱變量文法為每個句法類別關聯一個離散隱變量,離散隱變量的取值表示具體的句法子類別,原始句法類別的子類別個數以及文法規則的參數可以通過最大似然的方法自動學習得到。但是這種模型對于每個原始句法類別,只能建模其有限個句法子類別。
最近,深度學習(Deep Learning)技術不斷推動自然語言處理領域的發展。其中一個比較重要的方法是將離散的符號如單詞、句法類別等賦予連續向量化的表示。這種向量化的表示能用于編碼一個離散符號的上下文信息,精確地表示其句法功能和語義信息 ,從而能夠量化不同符號之間的差異。
在成分文法分析領域,Socher et., 2011 & 2013 將 Recursive Neural Networks 擴展并用于文法分析任務,其思路即為使用連續向量來表示句法子類別,從而在文法分析中得以使用上下文信息,以此獲得更好的文法分析精度。然而這些模型在文法分析中不能使用動態規劃算法進行確切推理。
通過總結以上工作,我們發現不斷細化句法類別,能夠得到更加精確的文法分析精度。因此,我們希望得到一個能夠建模盡可能多的句法子類別的文法分析模型。同時,受深度學習技術中離散符號向量化表示的啟發,我們也希望能夠借助連續向量來表示句法子類別。
方法
我們提出隱向量文法(Latent Vector Grammars (LVeGs)),將傳統的上下文無關文法和深度學習技術連接在一起。類比隱變量文法,隱向量文法為文法規則中的每個句法類別關聯一個隱向量空間,用來表示其句法子類別的連續向量空間。
在這個連續向量空間中,每個向量代表一個句法子類別,因此 LVeGs 能夠建模每個句法類別的無窮個句法子類別。需注意的是,在隱變量文法中,句法子類別構成的文法規則具有一個表示該規則概率的參數;而在隱向量文法中,句法子類別構成的文法規則具有一個表示該規則權重密度的參數。
可以證明,通過將隱變量文法中的離散變量取值轉換為 One-hot Vectors,隱向量文法框架能夠囊括隱變量文法,即隱變量文法可以看做是隱向量文法的一種特例。組合向量文法(Compositional Vector Grammars (Socher et al., 2011 & 2013))同樣是賦予句法子類別連續向量化表示,我們能夠證明該模型也是隱向量文法的一種特例。?
隱變量文法用于文法分析是一個 NP-hard 問題。而由于隱變量文法是隱向量文法的一種特例,隱向量文法分析同樣是 NP-hard 問題,因此只能借助近似求解的方法。比較常用的一種近似文法分析方法是 Max-Rule-Prod(Petrov et al., 2007),這種方法的求解目標是得到一個所有文法規則都正確的概率最大的語法樹。
該方法的核心是對于輸入語言,計算每個文法規則在每個可能的上下文位置的后驗概率。為了能夠高效的計算這些后驗概率,我們將文法規則的權重密度函數定義為混合高斯分布,因為混合高斯分布具有在積分、乘法、加法運算上的閉合屬性。我們稱這種模型為混合高斯隱向量文法(Gaussian Mixture LVeGs)。
在這種定義下,對于每個文法規則,其權重密度函數的自變量為對應句法類別的子類別向量的串聯。比如,對于文法規則 r: A -> B,權重密度函數為 W_r([a; b]),其中 a 為句法類別 A 的子類別向量,b 為句法類別 B 的子類別向量。文法規則的后驗概率計算完畢之后,應用動態規劃算法比如 CYK 算法可以高效地完成成分文法分析任務。
我們使用判別式學習方法 (Discriminative Learning)學習隱向量文法,即最大化給定輸入句子的條件下正確語法樹的條件概率。我們使用 Adam(Kingma et al., 2014)作為優化算法。在假設對角高斯分布的前提下,我們可以推導出梯度計算的閉式解。?
實驗中,我們通過成分文法分析和詞性標注(Part-of-speech (POS) Tagging)兩個任務驗證隱向量文法的有效性。需要注意的是用于詞性標注任務的隱馬爾科夫模型(Hidden Markov Models)可以看做是上下文無關文法(Context Free Grammars)的一種特例,因此,隱向量文法模型同樣適用于詞性標注任務。在學習和推理中,由于隱向量文法模型目前尚未考慮句子成分或者詞匯的上下文信息,因此為了公平對比,我們在實驗中主要選擇未應用上下文信息的文法分析模型作為對比模型。
我們首先在 POS Tagging 實驗中對比了 Diagonal 和 Spherical 高斯分布的差異,實驗結果表明這兩種不同的設定對于模型性能的影響并不明顯。而因為 Spherical 高斯的參數更少,我們主要以 Spherical 高斯設定下的 GM-LVeGs 為實驗模型。
其次,我們在 Parsing 和 Tagging 兩個任務中對比了不同類別的學習方法:生成式(Generative Learning)和判別式學習方法,實驗表明 GM-LVeGs 總能取得更好的結果。
在 Parsing 實驗中,我們把 GM-LVeGs 與組合向量文法模型和隱變量文法模型最好的系統實現 Berkeley Parser(Petrov and Klein, 2007)進行對比,實驗結果顯示 GM-LVeGs 同樣優于這兩類文法分析模型。
值得一提的是, 在標準測試集 WSJ(Penn Treebank WSJ)上,GM-LVeGs 在 F1 指標上高出 Berkeley Parser 0.92%。
總結?
我們的工作主要有以下貢獻。首先,我們提出隱向量文法模型(LVeGs)。其中每個句法類別關聯一個隱向量空間,用來表示句法子類別的連續空間,因此 LVeGs 可以建模無窮多的句法子類別。我們證明隱變量文法和組合向量文法模型可以看做是 LVeGs 的特例。
其次,我們提出混合高斯隱向量文法模型(GM-LVeGs)。其中文法規則的權重密度函數定義為混合高斯分布,這樣可以得到高效的推理和學習;我們在成分文法分析和詞性標注任務上證明 GM-LVeGs 能夠得到很好的結果。?
我們的模型具有很多可以擴展的方向。比如在現有的設定中,每個文法規則的權重密度函數具有相同的高斯分量個數,未來可以嘗試通過 Split、Merge 或者稀疏約束的方法自動決定每個文法規則的權重密度函數中高斯分量的個數。
另外一個擴展方向是將詞匯和句子成分的上下文信息考慮進來,比如使用非對角高斯,或者通過神經網絡模型來預測高斯參數。此外,也可以對所有句法類別的子類別空間使用一個相同的連續向量空間,這樣可以將句法類別的差異性建模進來。
研究組招聘
上海科技大學信息學院屠可偉老師研究組主要從事自然語言處理、機器學習、知識表示等人工智能領域的研究,近兩年已在 ACL、EMNLP、AAAI、ICCV 等頂級會議上發表了十多篇高水平論文。現招收碩士研究生、博士后和研究助理,歡迎對自然語言處理和機器學習有興趣的同學聯系屠老師。
更多信息請訪問:
http://sist.shanghaitech.edu.cn/faculty/tukw/
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的上海科技大学ACL2018高分论文:混合高斯隐向量文法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用PaddleFluid和Tensor
- 下一篇: 暑假没人带怎么办?还有我们为你推荐论文