论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析
筆記整理 | 吳林娟,天津大學(xué)碩士
來源:EMNLP2020
鏈接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf
動(dòng)機(jī)
依賴解析研究快速發(fā)展,然而依賴解析的性能在很大程度上依賴于語料庫的大小。獲取足夠的訓(xùn)練數(shù)據(jù)成本大且困難,基于機(jī)器學(xué)習(xí)的方法不能簡單地應(yīng)用于低資源語言的依賴解析。跨語言遷移的方法以及在POS、依賴解析、命名實(shí)體識(shí)別、實(shí)體鏈接、問答等低資源語言任務(wù)上獲得了成功的應(yīng)用。但是跨語言遷移的一個(gè)關(guān)鍵挑戰(zhàn)是難以處理源語言和目標(biāo)語言之間的詞序差異,于是作者針對這個(gè)問題提出了通過詞重排序跨語言解析(Cross lingUal paRSing by wOrd Reordering,CURSOR)的方法。
亮點(diǎn)
CURSOR的亮點(diǎn)主要是:將詞的重新排序形式化為一個(gè)組合優(yōu)化問題,并開發(fā)了一個(gè)基于種群的優(yōu)化算法來尋找接近最優(yōu)的重新排序結(jié)果。
概念及模型
問題定義
在源數(shù)據(jù)集S里,給定一個(gè)句子,目標(biāo)是對句子中的單詞進(jìn)行排列,模仿目標(biāo)語言中的順序。為了測量排列的優(yōu)劣,使用多層LSTM在目標(biāo)語料庫上訓(xùn)練一個(gè)基于POS任務(wù)的語言模型。句子可以表示為:
目標(biāo)是可以找到一個(gè)排列,這個(gè)重新排序的句子是由語言模型估計(jì)獲得最高概率的:
其中R(x)是x中單詞的所有可能排列的集合。理論上,候選者的總個(gè)數(shù)是n!,而大多數(shù)的排列可能與原句意思不同。為了避免這種情況,作者在生成R(x)時(shí)應(yīng)用了一個(gè)語法約束:在原句子中構(gòu)成成分的子序列在重新排序后仍然是子序列,而子序列中單詞的內(nèi)部順序可能會(huì)發(fā)生變化。
基于種群的優(yōu)化
式(2)中最優(yōu)的可以歸結(jié)為一個(gè)著名的旅行推銷員問題,是NP-hard的。因此,最優(yōu)排序在計(jì)算上是困難的,作者設(shè)計(jì)了一個(gè)遺傳算法來尋找接近最優(yōu)的結(jié)果。
遺傳算法是一種來自于自然選擇過程的啟發(fā)式搜索方法,它通過迭代的方式將候選解群體進(jìn)化為更好的解。每一次迭代的總體稱為一代。該算法首先執(zhí)行初始化操作符來創(chuàng)建初始生成。在每一代中,對種群中每一個(gè)個(gè)體的適應(yīng)度進(jìn)行評估,通過應(yīng)用選擇算子,使適應(yīng)度得分較高的個(gè)體有更多的機(jī)會(huì)繁殖下一代。下一代是通過兩種遺傳操作符的結(jié)合產(chǎn)生的:交叉和變異。交叉算子將雙親的遺傳信息結(jié)合在一起產(chǎn)生新的后代,而突變算子將多樣性引入到抽樣群體中。遺傳算法在解決組合優(yōu)化問題方面表現(xiàn)得很好,適用于單詞重排問題。
為了滿足語法約束,作者在子樹層次上設(shè)計(jì)了交叉和變異操作符,即當(dāng)一個(gè)單詞被移動(dòng)到其他地方時(shí),它的子樹也被移動(dòng)。
整體算法
實(shí)驗(yàn)
作者通過將在英語語料庫上訓(xùn)練的四種不同的解析模型轉(zhuǎn)移到30種目標(biāo)語言來評估CURSOR,并提出了一種結(jié)合的方法來進(jìn)一步提高性能。實(shí)驗(yàn)結(jié)果如下:
從表1中可以看出,與基線相比,在詞匯重排后的語料庫上訓(xùn)練了四種不同的解析模型,跨語言遷移性能都得到了提高。使用RNN編碼器的模型比使用SelfAtt編碼器的模型受益更多,可能是因?yàn)樗鼈儗υ~序更敏感。通過treebank重新排序增強(qiáng)的RNN-Graph模型獲得了最佳的平均UAS(66.6%),比基線高出2.5%。對于那些詞序與英語截然不同的語言,如印地語(hi)和拉丁語(la),這些改進(jìn)是非常重要的。
作者研究了跨語言遷移的性能與源語言和目標(biāo)語言的相似性之間的關(guān)系,以及遷移方向和遷移解析距離的差異對遷移性能的影響。證明了目標(biāo)語言和源語言越相似,遷移性能越好。而且CURSOR方法可以很好地消除遷移方向的影響,模型在預(yù)測長距離依賴時(shí),對語序的正確性更加敏感。
總結(jié)
作者提出了一種用于跨語言依賴分析的樹庫重新排序方法,不需要任何并行語料庫,并且可以應(yīng)用于任何一對源語言和目標(biāo)語言,但是條件為POS標(biāo)記可用。在30種語言的不同網(wǎng)絡(luò)架構(gòu)中進(jìn)行的大量實(shí)驗(yàn)表明,論文提出的方法可以顯著提高跨語言解析的性能。但是面向POS標(biāo)記數(shù)據(jù)為低資源的語言,該方法不太適用,這一點(diǎn)可以留給我們讀者繼續(xù)思考的空間。
OpenKG
開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 融合多粒度信息和外部语言知
- 下一篇: 征稿 | 2019年全国知识图谱与语义计