论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識圖譜問答。
來源:Knowledge Based System
鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0950705118301412?via%3Dihub
?
雙語word embedding將兩種語言表示與同一個空間中,使之不依賴機器翻譯的情況下,實現(xiàn)知識從某一語言到另一語言的轉換。實現(xiàn)這一方法的主要流程包括:1.訓練單語embedding;2. 利用雙語詞典構建雙語映射關系。不同于這一做法,本文提出基于多語言知識庫(例如wordnet)的雙語embedding方法,基本思路是通過在多語言wordnet上隨機游走抽取出雙語信息,而后學習到聯(lián)合embedding空間中。
?
動機
現(xiàn)有的方法主要基于雙語詞典構建不同語言之間的橋梁,作者認為雙語詞典雖然給出了基本的對齊信息,但是以wordnet為代表的多語言知識庫則可以在基本對齊的基礎上增加同義,上下位關系等等更多的語義信息,這些可以用于構建更高質量的雙語embedding。
?
貢獻
提出了一種基于多語言知識庫上隨機游走的雙語embedding方法
探究了從wordnet中抽取雙語約束改進Skipgram的loss-function的方法
利用wordnet構建雙語人工語料,并與單語數(shù)據(jù)集結合用于改進embedding方法
?
方法
帶有約束的雙語embedding
關于Skipgram
Skipgram是一種利用當前詞w預測其上下文文本c的模型,目標為通過文本語料學習參數(shù)θ,使得概率P(c|w;θ)最大化。本文主要關注Skipgram中負樣本在損失函數(shù)中的表現(xiàn)形式如下所示:
其中,(w, c)表示語料中的詞w及其共現(xiàn)文本中的詞c(共現(xiàn)文本由設定為K的窗口參數(shù)確定),cn表示負樣本文本的詞,P(c)表示噪聲分布(負樣本集)
?
引入雙語約束
對于不同語言的單語語料,獲得雙語embedding的直接方式就是從句子級別對他們進行融合,而后利用其中的公用詞,比如數(shù)字,專有名詞等等作為橋梁找尋雙語文本中的共現(xiàn)成分。但是顯然這種公用詞的數(shù)量是不足以構建高質量embedding的。
一種強化聯(lián)合embedding空間的方式是對于上述loss-function添加約束,這種約束一般來自于外部數(shù)據(jù),提供諸如句法,相關詞等等信息。作者在這里使用基于雙語詞典的對等翻譯,強制規(guī)范原始詞與其另一種語言的對等詞之間的距離,從而得到如下改進loss-function:
知識庫隨機游走
隨機游走的目的是從知識庫中獲取能夠反映結構信息的共現(xiàn)數(shù)據(jù),從而用于構建wordrepresentations。
單語隨機游走
首先,文章給出了單語圖譜上的隨機游走算法,對于給定圖譜G=(C, E),其中C表示概念集,E表示概念之間的邊集合。N(c)表示c在圖譜上的鄰居節(jié)點集,D(c)表示c可能的詞匯化表達,SC表示游走結果集,S表示每一輪循環(huán)游走得到的節(jié)點路徑集。
算法過程描述如下:
初始化SC為空集
根據(jù)預先定義的概率分布從C中選擇一個c
根據(jù)預先定義的概率分布從c的鄰居中隨機選擇N(c),及c的詞匯化表達D(c)
重復2,3步直到達到游走步數(shù)I
從而得到圖譜隨機游走生成的文本,該文本帶有語義結構信息(從語法上不一定成句子)。
利用生成文本(或者說詞序列)從自然語言語料中抽取成分共現(xiàn)的句子,從而得到帶有結構信息的自然語言語料
?
雙語隨機游走
為了實現(xiàn)多語言知識庫上的隨機游走,作者在算法1的基礎上進行以下改進:
將單語詞匯化表達D(c)變?yōu)殡p語集,即對于某concept由兩種語言的表達可選(當知識庫沒有相關對齊時,某一語言的表達可以為空),修改效果如算法2,添加了一個隨機選擇D(c)的語言步驟,其他與單語算法基本一致。
這樣得到的輸出序列可能同時包含兩種語言的詞匯,同樣,利用單語文本共現(xiàn)抽取,可以構建該序列的自然語言句子。
?
實驗
數(shù)據(jù)方面使用到了Wikipedia corpora以及wordnets
語言方面包含Basque,English,Spanish等版本(具體見原文)
一些統(tǒng)計信息如下:
這篇文章的實驗做的比較細,部分實驗結果如下:
添加雙語約束實驗
?
隨機游走實驗
推薦閱讀:
論文淺嘗 | 基于屬性嵌入的知識圖譜實體對齊
論文淺嘗 | 基于圖匹配神經網絡的跨語言知識圖對齊 (ACL 2019)
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 学习开发知识图谱中的长期关
- 下一篇: 微服务设计原则和解决方案