自然语言处理期末复习(7)平行文本与机器翻译
一、平行文本的自動對齊
1.按照語料庫所涉語種,語料庫可區分為(1)單語語料庫 (2)多語語料庫: 由多語平行文本組成
2.雙語對齊處理在兩種語言文本的不同語言單位之間建立對應關系,確定源語言文本中哪個(些)語言單位和目標語言文本中哪個(些)語言單位互有翻譯關系。
3. 自動雙語對齊處理指的是通過一定的算法,由計算機在雙語文本間建立對齊關系。
二、雙語句子級對齊
1.概念:在雙語文本間建立句子一級的對齊關系,就是要確定源語言文本中哪個(些)句子和目標語言文本中哪個(些)句子互為譯文。
2.基于長度的對其方法
(1)依據:--互為翻譯的兩個句子在長度上高度相關。--翻譯時,句子順序不做劇烈改變。(不考慮交叉)
(2)在已知參數c和s2以及Prob(match)后,即可計算最佳對齊。枚舉文本間所有可能的對齊,分別計算距離,選擇最佳對齊
三、雙語詞語級對齊
1.定義:在互為譯文的兩個句子間尋找詞語對譯關系。
2.統計對齊的任務,就是從眾多的對齊中找出概率最大的對齊,即韋特比對齊。
3. 可以通過下面的過程計算韋特比對齊
1) 羅列出原文句子和譯文句子間所有可能的對齊
2) 對每一種對齊,計算P(S, A|T)
3) 尋找能使P(S, A|T) 取得最大值的A作為韋特比對齊
4.對齊故事
(1) IBM模型一:原文所有的詞與譯文各個詞位對應的概率為等概率。
(2) IBM模型二:原文與譯文對應的概率為不等的概率,依賴著原文的詞位。
(3) Vogel的類HMM模型翻譯具有局部性,原文中鄰近的詞譯成其它語言時,譯詞大多數情況下仍然保持較近的距離,類HMM模型對此作了考慮。
(4)基于繁殖率的模型: 一個譯文單詞t對應的原文單詞的數量稱為t的繁殖率
(fertility),譯文單詞的繁殖率實際上是一個隨機變量.
5.計算韋特比對齊
理論上當然可以枚舉所有對齊方式,對每種對齊方式,計算P(S, A|T),在尋求值最大的對齊。實際上不現實。
(1)對于IBM模型一、二而言:順次為每一個原文單詞sj選擇一個能使t(sj|ti)取最大值的ti與之對應。
四、機器翻譯
? 1.直接翻譯法——逐詞翻譯法
? 2.轉換法
– 分析源語言文本,得到源語言的內部表達
– 將源語言內部表達轉換成目標語內部表達
– 根據目標語內部表達生成目標語文本
– 翻譯過程分成三個階段
? 3.中間語言法
中間語言(interlingua)是一種中間表達,通常是一種句法-語義表達(syntactic-semantic expression),中間語言獨立于任何具體的自然語言。
– 源文本經過深層分析得到其對應的中間語言表示。
– 再由該中間表示生成目標語文本。
– 翻譯過程為兩個階段。
? 4.基于統計的方法
– 基于統計的機翻譯通過建立、訓練統計翻譯模型、并進而基于統計模型進行翻譯。
Pr(S|T)稱為語言S到T的翻譯模型
Pr(T) 稱為語言T的語言模型
取兩者乘積最大值的句子:窮舉法與剪枝策略。
? 5基于實例的方法:通過模仿實例庫中已有的譯文基于類比的策略進行翻譯。
基本思想:
– 主要知識庫是雙語對照的實例庫
– 當需要翻譯一個新句子時,通過檢索的辦法在實例庫中尋找和該句類似的翻譯實例。
– 新句子的翻譯可通過模擬最類似的實例的譯文的方式獲得
? 6.神經機器翻譯方法
– 神經機器翻譯方法通過建立、訓練深度神經網絡模型完成機器翻譯。
? 編碼器讀入源語言句子,生成源語言句子的向量表示
? 解碼器基于源語言句子的向量表示生成目標語言句子
7.機器翻譯評價:
最常用的兩個標準源于ALPAC報告
? 譯文的可理解性(Intelligibility)(流暢度 fluency)
譯文可在多大程度上為不懂原文的人所理解
? 譯文的忠實度(Fidelity)(充分度 adequacy)
譯文和原文在內容上有多大差異
總結
以上是生活随笔為你收集整理的自然语言处理期末复习(7)平行文本与机器翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理期末复习(2)中文分词
- 下一篇: 自然语言处理期末复习(6)话题模型