java 知网 语义 相似度,基于知网的词汇语义相似度计算-hownet!.doc
基于知網的詞匯語義相似度計算-hownet!
基于《知網》的詞匯語義相似度計算
劉群?? 李素建?
{liuqun,lisujian}@
? 中國科學院計算技術研究所
? 北京大學計算語言學研究所
摘要:
《知網》是一部比較詳盡的語義知識詞典。在基于實例的機器翻譯中,詞語相似度計算是一個重要的環節。不過,由于《知網》中對于一個詞的語義采用的是一種多維的知識表示形式,這給詞語相似度的計算帶來了麻煩。這一點與WordNet和《同義詞詞林》不同。在WordNet和《同義詞詞林》中,所有同類的語義項(WordNet的synset或《同義詞詞林》的詞群)構成一個樹狀結構,要計算語義項之間的距離,只要計算樹狀結構中相應結點的距離即可。而在《知網》中詞語相似度的計算存在以下問題:
每一個詞的語義描述由多個義原組成,例如“暗箱”一詞的語義描述為:part|部件,%tool|用具,body|身,“寫信”一詞的語義描述為:#TakePicture|拍攝write|寫,ContentProduct=letter|信件;
詞語的語義描述中各個義原并不是平等的,它們之間有著復雜的關系,通過一種專門的知識描述語言來表示。
我們的工作主要包括:
研究《知網》中知識描述語言的語法,了解其描述一個詞義所用的多個義原之間的關系,區分其在詞語相似度計算中所起的作用;
提出利用《知網》進行詞語相似度計算的算法;
通過實驗驗證該算法的有效性,并與其他算法進行比較。
關鍵詞:《知網》 詞匯語義相似度計算 自然語言處理
引言
在基于實例的機器翻譯中,詞語相似度的計算有著重要的作用。例如要翻譯“張三寫的小說”這個短語,通過語料庫檢索得到譯例:
1)李四寫的小說/the novel written by Li Si
2)去年寫的小說/the novel written last year
通過相似度計算我們發現,“張三”和“李四”都是具體的人,語義上非常相似,而“去年”的語義是時間,和“張三”相似度較低,因此我們選用“李四寫的小說”這個實例進行類比翻譯,就可以得到正確的譯文:
the novel written by Zhang San
如果選用后者作為實例,那么得到的錯誤譯文將是:
* the novel written Zhang San
通過這個例子可以看出相似度計算在基于實例的機器翻譯中所起的作用。
在基于實例的翻譯中另一個重要的工作是雙語對齊。在雙語對齊過程中要用到兩種語言詞語的相似度計算,這不在本文所考慮的范圍之內。
除了基于實例的機器翻譯之外,詞語相似度計算在信息檢索、信息抽取、詞義排歧等領域都有著廣泛的應用。
詞語相似度及其計算的方法
什么是詞語相似度
什么是詞語相似度?
我們認為,詞語相似度是一個主觀性相當強的概念。脫離具體的應用去談論詞語相似度,很難得到一個統一的定義。因為詞語之間的關系非常復雜,其相似或差異之處很難用一個簡單的數值來進行度量。從某一角度看非常相似的詞語,從另一個角度看,很可能差異非常大。
不過,在具體的應用中,詞語相似度的含義可能就比較明確了。例如,在基于實例的機器翻譯中,詞語相似度主要用于衡量文本中詞語的可替換程度;而在信息檢索中,相似度更多的要反映文本或者用戶查詢在意義上的符合程度。
本文的研究主要以基于實例的機器翻譯為背景,因此在本文中我們所理解的詞語相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度。兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結構的可能性越大,二者的相似度就越高,否則相似度就越低。
相似度是一個數值,一般取值范圍在[0,1]之間。一個詞語與其本身的語義相似度為1。如果兩個詞語在任何上下文中都不可替換,那么其相似度為0。
相似度這個概念,涉及到詞語的詞法、句法、語義甚至語用等方方面面的特點。其中,對詞語相似度影響最大的應該是詞的語義。
詞語相似度與詞語距離
度量兩個詞語關系的另一個重要指標是詞語的距離。
一般而言,詞語距離是一個[0,∞)之間的實數。
一個詞語與其本身的距離為0。
詞語距離與詞語相似度之間有著密切的關系。
兩個詞語的距離越大,其相似度越低;反之,兩個詞語的距離越小,其相似度越大。二者之間可以建立一種簡單的對應關系。這種對應關系需要滿足以下幾個條件:
兩個詞語距離為0時,其相似度為1;
兩個詞語距離為無窮大時,其相似度為0;
兩個詞語的距離越大,其相似度越小(單調下降)。
對于兩個詞語W1和W2,我們記其相似度為Sim(W1,W2),其詞語距離為Dis(W1,W2),那么我們可以定義一個滿足以上條件的簡單的轉換關系:
…… (1)
其中α是一個可調節的參數。α的含義是:當相似度為0.5時的詞語距離值。
這種轉換關系并不是唯一的,我們這里只是給出了其中的一種可能。
在很多情
總結
以上是生活随笔為你收集整理的java 知网 语义 相似度,基于知网的词汇语义相似度计算-hownet!.doc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++类库:OTL通用的数据库连接类库
- 下一篇: jvm监控调优常用命令