跨语言、多语言信息检索
摘要
本文介紹了跨語言信息檢索(CLIR)、多語言信息檢索(MLIR)、機器翻譯方法和技巧。跨語言信息檢索(CLIR)處理用一種語言查詢和用另一種語言檢索文檔。多語言信息檢索(MLIR)處理以一種或多種語言提問和以一種或多種不同語言檢索文檔。機器翻譯是實現跨語言信息檢索(CLIR)和多語言信息檢索(MLIR)系統的重要組成部分。
跨語言信息檢索(CLIR)允許用戶查詢不同語言的文檔集。它允許用戶以一種語言輸入他們的查詢,并以其他語言重新獲得文檔集。跨語言信息檢索(CLIR)的主要優點是用戶可以在不受語言障礙限制的情況下搜索信息。在跨語言信息檢索中,查詢語言與文檔語言不同。跨語言信息檢索(CLIR)系統是一種用戶不僅僅局限于一種語言,還可以用一種語言進行查詢,然后再用另一種語言進行文檔返回的系統。與雙語系統相同的跨語言信息檢索(CLIR)簡化了對多語言用戶的搜索過程,并使那些只知道單一語言的人能夠以他們的語言提供查詢,然后利用機器翻譯檢索其他語言的文檔。
一、跨語言信息檢索(CLIR)系統中的術語
1.機器翻譯
機器翻譯是計算語言學中語言處理的一部分。機器翻譯方法通過使用機器翻譯系統翻譯文檔或查詢。機器翻譯(MT)指的是利用計算機自動完成人類語言之間的部分或全部翻譯任務。谷歌在線翻譯目前支持108種語言的機器翻譯服務。然而,從最終用戶的角度來看,這些搜索引擎本質上是一個單語搜索引擎的數據庫。沒有一家大型搜索引擎將MLIR技術作為一項服務。機器翻譯的主要缺點是計算費用昂貴。
2.雙語詞典
可以使用雙語詞典將文本和單詞從一種語言翻譯成另一種語言。基于詞典的方法使用雙語詞典。通過在雙語詞典中查找術語,用于查詢和翻譯。由于它的簡單性和機器可讀字典的廣泛可用性,這是最受歡迎的方法。
3.平行語料庫
與基于字典的翻譯相比,基于語料庫的翻譯通常具有更好的性能。平行語料庫的形成既復雜又昂貴。為某些語言找到并行語料庫可能是非常復雜的,或者是足夠大到可以使用的。無論是基于語料庫還是基于詞典的翻譯,其主要問題是翻譯的覆蓋面和質量。糟糕的類語料庫和字典會極大地降低系統的性能。雙語機器可讀字典比平行語料庫更容易獲得。
4. 類型分析器
分析給定文本的語言類型被稱為類型分析器,它是一個軟件組件。它感知輸入詞的語言類型。類型分析器通過結合統計POS標記器和Chunker來檢查其對性能的影響,從而確認其作為NLP應用基礎的可用性。
5.音譯
如果查詢詞在雙語字典中找不到,那么必須用音譯。對于音譯,基于規則的方法可以用于像Devanagari這樣的語言,因為它是一個語音腳本。對于查詢的音譯/翻譯結果,基于術語共現信息的迭代頁面排名樣式算法產生最可行的翻譯。
6.詞義消歧
在詞義消歧中,一個詞的詞義是根據它所保留的詞語來推斷的,也就是根據與它共存的詞語來推斷的。類似地,查詢中的單詞為選擇正確的翻譯/音譯提供了重要的思路,盡管數量較少。例如,對于印地語查詢“nadi jal”,這里nadi的翻譯是{river},而jal的翻譯是{water, to burn}。在這里,根據上下文,我們可以看到第二個詞的翻譯選擇是water,因為它更有可能與river同時出現。
二、機器翻譯方法
機器翻譯(MT)方法分為基于規則的、基于語料庫的、基于詞典的、基于示例的
1.??基于規則的
通過使用基于規則的簡單方法,可以翻譯詞典中未找到的單詞的音譯。基于規則的機器翻譯(RuleBased Machine Translation, RBMT)與源語言和目標語言的句法、形態和語義信息密切相關。根據這些信息制定語言規則。另外,該語言對使用了數百萬本雙語詞典。基于規則的機器翻譯(RuleBased Machine Translation, RBMT)是處理各種語言現象,具有可擴展性和可維護性。然而,增加了系統語法異常的困難,因此,研究過程需要高投資。基于規則的機器翻譯(RBMT)的主要任務是將源語言(語義和句法)結構轉換為目標語言(語義和句法)結構。這一方法可以有若干辦法,如圖1所示。
圖1.基于規則的機器翻譯的不同方法
2. 基于語料庫的方法
基于語料庫的翻譯方法,通過分析比較語料庫或并行語料庫來構建統計翻譯模型。為了克服基于規則的機器翻譯的知識獲取問題,基于語料庫的機器翻譯又稱數據驅動機器翻譯,是機器翻譯的一種替代方法。基于語料庫的機器翻譯使用雙語并行語料庫,獲取輸入語言的翻譯。在CBMT中使用了大量的并行語料庫形式的原始數據。這些原始數據包含文本及其翻譯。這些語料庫用于獲取翻譯知識。基于實例的機器翻譯方法是一種基于語料庫的機器翻譯方法。
3.?基于詞典的機器翻譯
這種翻譯方法基于語言詞典的條目。為了發展經翻譯的詩歌,使用了這個詞的同等詞。機器可讀或電子詞典是第一代機器翻譯的基礎。在某種程度上,這種方法仍然可以完全翻譯短語,但不能完全翻譯句子。最后,在或多或少利用雙語詞典和語法規則的基礎上,提出了大多數翻譯方法。
4.??基于示例的機器翻譯
機器翻譯是以并行語料庫為主要知識的雙語語料庫,以類比翻譯為主要思想實現了EBMT系統的點到點映射。它把源語言中的一組句子和目標語言中每一個句子對應的翻譯產生。這些例子是用來把源語言中相似類型的句子翻譯成目標語言的。在EBMT中,有四個任務:示例獲取、示例庫與管理、示例應用與合成。在基于實例的機器翻譯的基礎上提出了類比翻譯的思想。類比翻譯規則被編碼為基于實例的機器翻譯。
結論
以上是多語種和跨語種信息檢索中的機器翻譯技術。跨語種和多語種信息檢索(IR)為全世界不同語種檢索文檔提供了新的范式,不僅可以作為兩種語言檢索的基礎,而且可以作為多種語言檢索的基礎。機器翻譯是人工智能和信息檢索系統的一個研究熱點。機器翻譯(MT)是一個難題,因為自然語言非常復雜。很難說,一種辦法足以處理翻譯過程,因為語言本質上是進化的。以上是各種跨語言信息檢索(CLIR)和多語言信息檢索(MLIR)系統實現的機器翻譯方法。
?
總結
以上是生活随笔為你收集整理的跨语言、多语言信息检索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神经网络最常用的10个激活函数,一文详解
- 下一篇: 隐马尔科夫模型原理解析