机器翻译软件从实验室走向市场
??機(jī)器翻譯軟件從實(shí)驗(yàn)室走向市場(chǎng) ? ? ? ? ? ? ? ???馮志偉
?
????機(jī)器翻譯研究如何用計(jì)算機(jī)來(lái)進(jìn)行不同自然語(yǔ)言之間的翻譯,它是自然語(yǔ)言計(jì)算機(jī)處理的一個(gè)歷史悠久的部門,是橫跨語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)的綜合性學(xué)科,也是計(jì)算機(jī)軟件應(yīng)用的一個(gè)重要領(lǐng)域。隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速普及和推廣,隨著信息高速公路的發(fā)展,網(wǎng)絡(luò)上不同語(yǔ)言之間交際越來(lái)越普遍,語(yǔ)言的障礙也顯得越來(lái)越嚴(yán)重,機(jī)器翻譯是克服信息時(shí)代的語(yǔ)言障礙的不可缺少的手段,它在現(xiàn)代信息社會(huì)中的巨大作用將會(huì)越來(lái)越明顯。由于自然語(yǔ)言的極端復(fù)雜性,機(jī)器翻譯是當(dāng)代科學(xué)技術(shù)的十大難題之一。
????早在在17世紀(jì),一些有識(shí)之士就提出了采用機(jī)器詞典來(lái)克服語(yǔ)言障礙的想法。笛卡兒(Descartes)和萊布尼茲(Leibniz)都試圖在統(tǒng)一的數(shù)字代碼的基礎(chǔ)上來(lái)編寫(xiě)詞典。在17世紀(jì)中葉,貝克(Cave Beck)、基爾施(Athanasius Kircher)和貝希爾(Johann Joachim Becher)等人都出版過(guò)這類的詞典。由此開(kāi)展了關(guān)于“普遍語(yǔ)言”的運(yùn)動(dòng),一些人試圖在邏輯原則和圖形符號(hào)的基礎(chǔ)上,創(chuàng)造出一種無(wú)歧義的語(yǔ)言,這樣一來(lái),人們就不必再由于誤解而產(chǎn)生交際方面的困惑了。維爾金斯(John Wilkins) 在《關(guān)于真實(shí)符號(hào)和哲學(xué)語(yǔ)言的論文》(An Essay towards a Real Character and Philosophical??Language, 1668)中提出的中介語(yǔ)(Interlingua)是這方面最著名的成果,這種中介語(yǔ)的設(shè)計(jì)試圖將世界上所有的概念和實(shí)體都加以分類和編碼,有規(guī)則地列出并描述所有的概念和實(shí)體,并根據(jù)它們各自的特點(diǎn)和性質(zhì),給予不同的記號(hào)和名稱。
???????1903年,古圖拉特(Couturat)和洛(Leau)在《通用語(yǔ)言的歷史》一書(shū)中指出,德國(guó)學(xué)者里格(W. Rieger) 曾經(jīng)提出過(guò)一種數(shù)字語(yǔ)法(Zifferngrammatik),這種語(yǔ)法加上詞典的輔助,可以利用機(jī)械將一種語(yǔ)言翻譯成其他多種語(yǔ)言,首次使用了“機(jī)器翻譯” (德文是ein mechanisches Uebersetzen)這個(gè)術(shù)語(yǔ)。?
????本世紀(jì)30年代之初,亞美尼亞裔的法國(guó)工程師阿爾楚尼(G.B. Artsouni)提出了用機(jī)器來(lái)進(jìn)行語(yǔ)言翻譯的想法,并在1933年7月22日獲得了一項(xiàng)“翻譯機(jī)”的專利,叫做“機(jī)械腦”(mechanical brain)。這種機(jī)械腦的存儲(chǔ)裝置可以容納數(shù)千個(gè)字元,通過(guò)鍵盤后面的寬紙帶,進(jìn)行資料的檢索。阿爾楚尼認(rèn)為它可以應(yīng)用來(lái)記錄火車時(shí)刻表和銀行的帳戶,尤其適合于作機(jī)器詞典。在寬紙帶上面,每一行記錄了源語(yǔ)言的一個(gè)詞項(xiàng)以及這個(gè)詞項(xiàng)在多種目標(biāo)語(yǔ)言中的對(duì)應(yīng)詞項(xiàng),在另外一條紙帶上對(duì)應(yīng)的每個(gè)詞項(xiàng)處,記錄著相應(yīng)的代碼,這些代碼以打孔來(lái)表示。要查詢的詞項(xiàng)也利用鍵盤打孔來(lái)表示,檢索一個(gè)詞項(xiàng)的時(shí)間大約時(shí)十到十五秒。阿爾楚尼的原型機(jī)于1937年正式展出,引起了法國(guó)郵政、電信部門的興趣。但是,由于不久爆發(fā)了第二次世界大戰(zhàn),阿爾楚尼的機(jī)械腦無(wú)法安裝使用。
????1933年,蘇聯(lián)發(fā)明家特洛揚(yáng)斯基(П.П.ТРОЯНСКИЙ)設(shè)計(jì)了用機(jī)械方法把一種語(yǔ)言翻譯為另一種語(yǔ)言的機(jī)器,并在同年9月5日登記了他的發(fā)明。特洛揚(yáng)斯基認(rèn)為翻譯可以分為三個(gè)階段,第一個(gè)階段由只懂源語(yǔ)言的編輯,將輸入的原文分析成特定的邏輯形式,將帶有屈折詞尾的變形詞還原成原形詞,并分析出各個(gè)單詞的句法功能,為此,他創(chuàng)造了一套邏輯分析符號(hào)。第二階段是利用他的翻譯機(jī),把源語(yǔ)言的原形詞和邏輯符號(hào)轉(zhuǎn)換成目標(biāo)語(yǔ)言的原形詞和符號(hào)。第三階段由只懂目標(biāo)語(yǔ)言的編輯,把目標(biāo)語(yǔ)言的原形詞和符號(hào)轉(zhuǎn)換成目標(biāo)語(yǔ)言。特洛揚(yáng)斯基認(rèn)為,他的翻譯機(jī)只能在第二階段作為自動(dòng)詞典來(lái)使用。不過(guò)他相信,只要能夠建造出一部專門處理邏輯分析過(guò)程的機(jī)器,總有一天,上述的整個(gè)翻譯程序都能夠用機(jī)器來(lái)實(shí)現(xiàn)。特洛揚(yáng)斯基這種認(rèn)識(shí),已經(jīng)超越了“機(jī)器詞典”的簡(jiǎn)單想法,比阿爾楚尼又進(jìn)了一步。1939年,特洛揚(yáng)斯基在他的翻譯機(jī)上增加了一個(gè)用“光元素”操作的存儲(chǔ)裝置;1941年5 月,這部實(shí)驗(yàn)性的翻譯機(jī)已經(jīng)可以運(yùn)作;1948年,他計(jì)劃在此基礎(chǔ)上研制一部“電子機(jī)械機(jī)”(electro-mechanical machine)。但是,由于當(dāng)時(shí)蘇聯(lián)的科學(xué)家和語(yǔ)言學(xué)家對(duì)此反映十分冷淡,特洛揚(yáng)斯基的翻譯機(jī)沒(méi)有得到支持,最后以失敗告終了。
????機(jī)器翻譯系統(tǒng)的研制是從40年代末期開(kāi)始的。可以分為草創(chuàng)期、復(fù)蘇期、發(fā)展期三個(gè)時(shí)期。
????(1)草創(chuàng)期(1954年-1970年):???
????1946年,美國(guó)賓夕法尼亞大學(xué)的埃克特(J. P. Eckert)和莫希萊(J.W.Mauchly)設(shè)計(jì)并制造出了世界上第一臺(tái)電子計(jì)算機(jī)ENIAC,電子計(jì)算機(jī)驚人的運(yùn)算速度,啟示著人們考慮翻譯技術(shù)的革新問(wèn)題。因此,在電子計(jì)算機(jī)問(wèn)世的同一年,英國(guó)工程師布斯(A.D.Booth)和美國(guó)洛克菲勒基金會(huì)副總裁韋弗(W.Weaver)在討論電子計(jì)算機(jī)的應(yīng)用范圍時(shí),就提出了利用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的想法。1947年3月6日,布斯與韋弗在紐約的洛克菲勒中心會(huì)面,韋弗提出,“如果將計(jì)算機(jī)用在非數(shù)值計(jì)算方面,是比較有希望的”。在韋弗與布斯會(huì)面之前,韋弗在1947年3月4日給控制論學(xué)者維納(N. Wiener)寫(xiě)信,討論了機(jī)器翻譯的問(wèn)題,韋弗說(shuō):“我懷疑是否真的建造不出一部能夠作翻譯的計(jì)算機(jī)?即使只能翻譯科學(xué)性的文章(在語(yǔ)義上問(wèn)題較少),或是翻譯出來(lái)的結(jié)果不怎么優(yōu)雅(但能夠理解),對(duì)我而言都值得一試。”可是,維納給韋弗潑了一瓢冷水,他在4月30日給韋弗的回信中寫(xiě)道:“老實(shí)說(shuō),恐怕每一種語(yǔ)言的詞匯,范圍都相當(dāng)模糊;而其中表示的感情和言外之意,要以類似機(jī)器翻譯的方法來(lái)處理,恐怕不是很樂(lè)觀的。”不過(guò)韋弗仍然堅(jiān)持自己的意見(jiàn)。1949年,韋弗發(fā)表了一份以《翻譯》為題的備忘錄,正式提出了機(jī)器翻譯問(wèn)題。在這份備忘錄中,他除了提出各種語(yǔ)言都有許多共同的特征這一論點(diǎn)之外,還有兩點(diǎn)值得我們注意:
????第一,他認(rèn)為翻譯類似于解讀密碼的過(guò)程。他說(shuō):“當(dāng)我閱讀一篇用漢語(yǔ)寫(xiě)的文章的時(shí)候,我可以說(shuō),這篇文章實(shí)際上是用英語(yǔ)寫(xiě)的,只不過(guò)它是用另外一種奇怪的符號(hào)編了碼而已,當(dāng)我在閱讀時(shí),我是在進(jìn)行解碼。”備忘錄中記載了一個(gè)有趣的故事,布朗大學(xué)數(shù)學(xué)系的吉兒曼(R. E. Gilmam)曾經(jīng)解讀了一篇長(zhǎng)約一百個(gè)詞的土耳其文密碼,而他既不懂土耳其文,也不知道這篇密碼是用土耳其文寫(xiě)的。韋弗認(rèn)為,吉爾曼的成功足以證明解讀密碼的技巧和能力不受語(yǔ)言的影響,因而可以用解讀密碼的辦法來(lái)進(jìn)行機(jī)器翻譯。
???第二,他認(rèn)為原文與譯文“說(shuō)的是同樣的事情”,因此,當(dāng)把語(yǔ)言A翻譯為語(yǔ)言B時(shí),就意味著,從語(yǔ)言A出發(fā),經(jīng)過(guò)某一“通用語(yǔ)言” (Universal Language)或“中間語(yǔ)言”(Interlingua),然后轉(zhuǎn)換為語(yǔ)言B,這種“通用語(yǔ)言”或“中間語(yǔ)言”,可以假定是全人類共同的。
????可以看出,韋弗把機(jī)器翻譯僅僅看成一種機(jī)械的解讀密碼的過(guò)程,他遠(yuǎn)遠(yuǎn)沒(méi)有看到機(jī)器翻譯翻譯在詞法分析、句法分析以及語(yǔ)義分析等方面的復(fù)雜性。
????由于學(xué)者的熱心倡導(dǎo),實(shí)業(yè)界的大力支持,美國(guó)的機(jī)器翻譯研究一時(shí)興盛起來(lái)。1954年,美國(guó)喬治敦大學(xué)在國(guó)際商用機(jī)器公司(IBM公司)的協(xié)同下,用IBM-701計(jì)算機(jī),進(jìn)行了世界上第一次機(jī)器翻譯試驗(yàn),把幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成英語(yǔ),接著,蘇聯(lián)、英國(guó)、日本也進(jìn)行了機(jī)器翻譯試驗(yàn),機(jī)器翻譯出現(xiàn)熱潮。
????早期機(jī)器翻譯系統(tǒng)的研制受到韋弗的上述思想的很大影響,許多機(jī)器翻譯研究者都把機(jī)器翻譯的過(guò)程與解讀密碼的過(guò)程相類比,試圖通過(guò)查詢?cè)~典的方法來(lái)實(shí)現(xiàn)詞對(duì)詞的機(jī)器翻譯,因而譯文的可讀性很差,難于付諸實(shí)用。
????1964年,美國(guó)科學(xué)院成立語(yǔ)言自動(dòng)處理諮詢委員會(huì)(Automatic Language Processing Advisory Committee,簡(jiǎn)稱ALPAC委員會(huì)),調(diào)查機(jī)器翻譯的研究情況,并于1966年11月公布了一個(gè)題為《語(yǔ)言與機(jī)器》的報(bào)告,簡(jiǎn)稱ALPAC報(bào)告,對(duì)機(jī)器翻譯采取否定的態(tài)度,報(bào)告宣稱:“在目前給機(jī)器翻譯以大力支持還沒(méi)有多少理由”;??報(bào)告還指出,機(jī)器翻譯研究遇到了難以克服的“語(yǔ)義障礙”(semantic barrier)。
????在ALPAC報(bào)告的影響下,許多國(guó)家的機(jī)器翻譯研究低潮,許多已經(jīng)建立起來(lái)的機(jī)器翻譯研究單位遇到了行政上和經(jīng)費(fèi)上的困難,在世界范圍內(nèi),機(jī)器翻譯的熱潮突然消失了,出現(xiàn)了空前蕭條的局面。
????不過(guò),盡管在蕭條時(shí)期,法國(guó)、日本、加拿大等國(guó),仍然堅(jiān)持著機(jī)器翻譯研究,于是,在 70 年代初期,機(jī)器翻譯又出現(xiàn)了復(fù)蘇的局面。
(2)復(fù)蘇期(1970年-1976年):
????在這個(gè)復(fù)蘇期,研究者們普遍認(rèn)識(shí)到,原語(yǔ)和譯語(yǔ)兩種語(yǔ)言的差異,不僅只表現(xiàn)在詞匯的不同上,而且,還表現(xiàn)在句法結(jié)構(gòu)的不同上,為了得到可讀性強(qiáng)的譯文,必須在自動(dòng)句法分析上多下功夫。
????早在1957年,美國(guó)學(xué)者英格維(V. Yingve)在《句法翻譯的框架》(Framework for Syntactic Translation)一文中就指出,一個(gè)好的機(jī)器翻譯系統(tǒng),應(yīng)該分別地對(duì)原語(yǔ)和譯語(yǔ)都作出恰如其分的描寫(xiě),這樣的描寫(xiě)應(yīng)該互不影響,相對(duì)獨(dú)立。英格維主張,機(jī)器翻譯可以分為三個(gè)階段來(lái)進(jìn)行。
????第一階段:用代碼化的結(jié)構(gòu)標(biāo)志來(lái)表示原語(yǔ)文句的結(jié)構(gòu);
????第二階段:把原語(yǔ)的結(jié)構(gòu)標(biāo)志轉(zhuǎn)換為譯語(yǔ)的結(jié)構(gòu)標(biāo)志;
????第三階段:構(gòu)成譯語(yǔ)的輸出文句。
????英格維的這些主張,在這個(gè)時(shí)期廣為傳播,并被機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)人員普遍接受,因此,這個(gè)時(shí)期的機(jī)器翻譯系統(tǒng)幾乎都把句法分析放在第一位,并且在句法分析方面取得了很大的成績(jī)。
????這個(gè)時(shí)期機(jī)器翻譯的另一個(gè)特點(diǎn)是語(yǔ)法(grammar)與算法(algorithm)分開(kāi)。
????早在1957年,英格維就提出了把語(yǔ)法與“機(jī)制”(mechanism)分開(kāi)的思想。英格維所說(shuō)的“機(jī)制”,實(shí)質(zhì)上就是算法。所謂語(yǔ)法與算法分開(kāi),就是要把語(yǔ)言分析和軟件程序設(shè)計(jì)分開(kāi),程序設(shè)計(jì)工作者提出規(guī)則描述的方法,而語(yǔ)言學(xué)工作者使用這種方法來(lái)描述語(yǔ)言的規(guī)則。語(yǔ)法和算法分開(kāi),是機(jī)器翻譯技術(shù)的一大進(jìn)步,它非常有利于程序設(shè)計(jì)工作者與語(yǔ)言工作者的分工合作。
????這個(gè)復(fù)蘇期的機(jī)器翻譯系統(tǒng)的典型代表是法國(guó)格勒諾布爾理科醫(yī)科大學(xué)自動(dòng)翻譯中心(GETA)的機(jī)器翻譯系統(tǒng)。這個(gè)自動(dòng)翻譯中心的主任沃古瓦(B. Vouquois)教授明確地提出,一個(gè)完整的機(jī)器翻譯過(guò)程可以分為如下六個(gè)步驟:
????(1)原語(yǔ)詞法分析,(2)原語(yǔ)句法分析,(3)原語(yǔ)譯語(yǔ)詞匯轉(zhuǎn)換,(4)原語(yǔ)譯語(yǔ)結(jié)構(gòu)轉(zhuǎn)換,(5)譯語(yǔ)句法生成,(6)譯語(yǔ)詞法生成。
????其中,第一、第二步只與原語(yǔ)有關(guān),第五、第六步只與譯語(yǔ)有關(guān),只有第三、第四步牽涉到原語(yǔ)和譯語(yǔ)二者。這就是機(jī)器翻譯中的“獨(dú)立分析-獨(dú)立生成-相關(guān)轉(zhuǎn)換”的方法。他們用這種研制的俄法機(jī)器翻譯系統(tǒng),已經(jīng)接近實(shí)用水平。
(3)繁榮期(1976年--現(xiàn)在)。
?????繁榮期的最重要的特點(diǎn),是機(jī)器翻譯研究走向了實(shí)用化,出現(xiàn)了一大批實(shí)用化的機(jī)器翻譯系統(tǒng),機(jī)器翻譯軟件產(chǎn)品開(kāi)始進(jìn)入市場(chǎng),變成了商品,由機(jī)器翻譯系統(tǒng)的實(shí)用化引起了機(jī)器翻譯軟件的商品化。
????機(jī)器翻譯的繁榮期是以1976年加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開(kāi)發(fā)的實(shí)用性機(jī)器翻譯系統(tǒng) TAUM-METEO 正式提供天氣預(yù)報(bào)服務(wù)為標(biāo)志的。這個(gè)機(jī)器翻譯系統(tǒng)投入實(shí)用之后,每小時(shí)可以翻譯6萬(wàn)-30萬(wàn)個(gè)詞,每天可以翻譯1500-2000篇天氣預(yù)報(bào)的資料,并能夠通過(guò)電視、報(bào)紙立即公布。TAUM-METEO系統(tǒng)是機(jī)器翻譯發(fā)展史上的一個(gè)里程碑,它標(biāo)志著機(jī)器翻譯由復(fù)蘇走向了繁榮。
????傳統(tǒng)的機(jī)器翻譯系統(tǒng),按其翻譯方式來(lái)分。可大致分為直譯式、轉(zhuǎn)換式和樞軸式三種類型。
????1.直譯式:把原語(yǔ)的詞或句子直接替換成譯語(yǔ)的詞或句子,必要時(shí)對(duì)詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。這種直譯式廣泛地應(yīng)用于早期的機(jī)器翻譯系統(tǒng)中。目前,仍然有不少系統(tǒng)采用直譯式來(lái)進(jìn)行機(jī)器翻譯。一個(gè)極端的例子就是袖珍旅游翻譯機(jī),這種翻譯機(jī)存貯著原語(yǔ)的常用句子及其相應(yīng)的譯語(yǔ)的譯文,翻譯時(shí)直接查出其對(duì)應(yīng)物即可。比較復(fù)雜的直譯式是句法直譯式、語(yǔ)義直譯式。在直譯時(shí)要進(jìn)行詞語(yǔ)的選擇和詞序的變換。
????2.轉(zhuǎn)換式:在原語(yǔ)和譯語(yǔ)之間設(shè)定能在一定程序上表現(xiàn)語(yǔ)義關(guān)系的中間表達(dá)式,根據(jù)中間表達(dá)式所處平面的不同,又可分為句法轉(zhuǎn)換式和語(yǔ)義轉(zhuǎn)換式。句法轉(zhuǎn)換式一般以樹(shù)形圖作為句法結(jié)構(gòu)的中間表達(dá)式,語(yǔ)義轉(zhuǎn)換式一般采用語(yǔ)義網(wǎng)絡(luò)作為中間表達(dá)式。在采用語(yǔ)義轉(zhuǎn)換式的機(jī)器翻譯系統(tǒng)中,在表層結(jié)構(gòu)上出現(xiàn)歧義的句子,在語(yǔ)義的中間表達(dá)式這一平面上不會(huì)再有歧義。因此轉(zhuǎn)換規(guī)則的數(shù)目不多,這是其優(yōu)點(diǎn)。但其缺點(diǎn)是為了得到這樣的中間表達(dá)式,需要進(jìn)行大量的分析和運(yùn)算,而且由這樣的中間表達(dá)式去生成譯文也是十分困難的。
?????3.樞軸式:把語(yǔ)義轉(zhuǎn)換式推到極限,用中間表達(dá)式來(lái)表示不依賴于任何具體語(yǔ)言的普遍意義,這種普遍意義就是樞軸。在樞軸式中,原語(yǔ)和譯語(yǔ)之間不再需要進(jìn)行什么轉(zhuǎn)換,轉(zhuǎn)換規(guī)則的數(shù)目減少到零,翻譯的過(guò)程就是首先把原語(yǔ)的文句變?yōu)闃休S中的普遍意義,再由普遍意義生成譯文。由于完全取消了轉(zhuǎn)換規(guī)則,所以,原語(yǔ)的分析和譯語(yǔ)的生成都比較復(fù)雜。
????傳統(tǒng)的機(jī)器翻譯方法都是基于規(guī)則的機(jī)器翻譯方法,由于分析技術(shù)的限制,大多數(shù)都以句法直譯式和句法轉(zhuǎn)換式為其主流。
????除了傳統(tǒng)的機(jī)器翻譯方法之外,近年來(lái)還出現(xiàn)了基于經(jīng)驗(yàn)的機(jī)器翻譯方法。所謂“基于經(jīng)驗(yàn)”,一是指基于統(tǒng)計(jì),一是指基于實(shí)例。基于經(jīng)驗(yàn)的機(jī)器翻譯系統(tǒng)的研制,需要大規(guī)模真實(shí)語(yǔ)料庫(kù)的支持。
1993年7月在日本神戶召開(kāi)的第四屆機(jī)器翻譯高層會(huì)議(MT Summit IV)上,英國(guó)著名學(xué)者哈欽斯(J. Hutchins)在他的特約報(bào)告中指出,自1989年以來(lái),機(jī)器翻譯的發(fā)展進(jìn)入了一個(gè)新紀(jì)元。這個(gè)新紀(jì)元的重要標(biāo)志是,在基于規(guī)則的技術(shù)中引入了語(yǔ)料庫(kù)方法,其中包括統(tǒng)計(jì)方法,基于實(shí)例的方法,通過(guò)語(yǔ)料加工手段使語(yǔ)料庫(kù)轉(zhuǎn)化為語(yǔ)言知識(shí)庫(kù)的方法,等等。這種建立在大規(guī)模真實(shí)文本處理基礎(chǔ)上的機(jī)器翻譯,是機(jī)器翻譯研究史上的一場(chǎng)革命,它將會(huì)把自然語(yǔ)言的計(jì)算機(jī)處理推向一個(gè)嶄新的階段。
????早在1949年,韋弗在他的備忘錄中,就提出了使用統(tǒng)計(jì)學(xué)的辦法來(lái)解決機(jī)器翻譯問(wèn)題,但是,由于當(dāng)時(shí)尚缺乏高性能的計(jì)算機(jī)和聯(lián)機(jī)語(yǔ)料,采用基于統(tǒng)計(jì)的機(jī)器翻譯在技術(shù)上還不成熟。現(xiàn)在,這種局面已經(jīng)大大改變了,計(jì)算機(jī)在速度和容量上多有了大幅度的提高,也有了大量的聯(lián)機(jī)語(yǔ)料可供統(tǒng)計(jì)使用,因此,在 90 年代,基于統(tǒng)計(jì)的機(jī)器翻譯又興盛起來(lái)。
????基于統(tǒng)計(jì)的機(jī)器翻譯把機(jī)器翻譯問(wèn)題看成是一個(gè)噪音信道問(wèn)題,如圖所示:
???????????????????????S → 噪音信道??→ T
????可以這樣來(lái)看機(jī)器翻譯:一種語(yǔ)言S由于經(jīng)過(guò)了一個(gè)噪音信道而發(fā)生了扭曲變形,在信道的另一端呈現(xiàn)為另一種語(yǔ)言T,翻譯問(wèn)題實(shí)際上就是如何根據(jù)觀察到的語(yǔ)言T,恢復(fù)最為可能的語(yǔ)言S。語(yǔ)言S是信道意義上的輸入,在翻譯意義上就是目標(biāo)語(yǔ)言,語(yǔ)言T是信道意義上的輸出,在翻譯意義上就是源語(yǔ)言。從這種觀點(diǎn)看來(lái),一種語(yǔ)言中的任何一個(gè)句子都有可能是另外一種語(yǔ)言中的某幾個(gè)句子的譯文,只是這些句子的可能性各不相同,機(jī)器翻譯就是要找出其中可能性最大的句子,也就是對(duì)所有可能的目標(biāo)語(yǔ)言S計(jì)算出概率最大的一個(gè)作為源語(yǔ)言T的譯文。由于S的數(shù)量巨大,可以采用棧式搜索(stack search)的方法。棧式搜索的主要數(shù)據(jù)結(jié)構(gòu)是表結(jié)構(gòu),表結(jié)構(gòu)中存放著當(dāng)前最有希望的對(duì)應(yīng)于T的S,算法不斷循環(huán),每次循環(huán)擴(kuò)充一些最有希望的結(jié)果,直到表中包含一個(gè)得分明顯高于其它結(jié)果的S時(shí)結(jié)束。棧式搜索不能保證得到最優(yōu)的結(jié)果,它會(huì)導(dǎo)致錯(cuò)誤的翻譯,因而只是一種次優(yōu)化算法。
????基于統(tǒng)計(jì)的機(jī)器翻譯進(jìn)行概率計(jì)算時(shí),采用隱馬爾可夫模型(Hidden Markov Model, 簡(jiǎn)稱HMM)。隱馬爾可夫模型是馬爾可夫模型的擴(kuò)展。馬爾可夫模型描述的是一個(gè)隨機(jī)過(guò)程,而隱馬爾可夫模型中有兩個(gè)隨機(jī)過(guò)程,一個(gè)隨機(jī)過(guò)程描述觀察值(例如, 具體的單詞)和狀態(tài)(例如, 該單詞可能標(biāo)注的詞類)之間的概率關(guān)系,即觀察值是狀態(tài)的概率函數(shù),另一個(gè)隨機(jī)過(guò)程描述狀態(tài)之間(例如, 詞類標(biāo)記與詞類標(biāo)記之間)的轉(zhuǎn)移關(guān)系。作為外界的觀察者來(lái)說(shuō),只能看到狀態(tài)產(chǎn)生的觀察值,而看不到狀態(tài)之間的轉(zhuǎn)移,狀態(tài)之間的轉(zhuǎn)移是隱藏的,所以叫做隱馬爾可夫模型。近年來(lái),利用隱馬爾可夫模型在詞性標(biāo)注方面取得了較好的結(jié)果,從而推動(dòng)了基于統(tǒng)計(jì)的機(jī)器翻譯的研究。
????基于實(shí)例的機(jī)器翻譯的思想最早是由日本機(jī)器翻譯專家長(zhǎng)尾真(Makoto Nagao)提出來(lái)的。他在1984年發(fā)表了《采用類比原則進(jìn)行日-英機(jī)器翻譯的一個(gè)框架》一文,探討日本人初學(xué)英語(yǔ)時(shí)翻譯句子的基本過(guò)程,長(zhǎng)尾真認(rèn)為,初學(xué)英語(yǔ)的日本人總是記住一些最基本的英語(yǔ)句子以及一些相對(duì)應(yīng)的日語(yǔ)句子,他們要對(duì)比不同的英語(yǔ)句子和相對(duì)應(yīng)的日語(yǔ)句子,并由此推論出句子的結(jié)構(gòu)。參照這個(gè)學(xué)習(xí)過(guò)程,在機(jī)器翻譯中,如果我們給出一些英語(yǔ)句子的實(shí)例以及相對(duì)應(yīng)的日語(yǔ)句子,機(jī)器翻譯系統(tǒng)來(lái)識(shí)別和比較這些實(shí)例及其譯文的相似之處和相差之處,從而挑選出正確的譯文。長(zhǎng)尾真指出,人類并不通過(guò)做深層的語(yǔ)言學(xué)分析來(lái)進(jìn)行翻譯,人類的翻譯過(guò)程是:首先把輸入的句子正確地分解為一些短語(yǔ)碎片,接著把這些短語(yǔ)碎片翻譯成其它語(yǔ)言的短語(yǔ)碎片,最后再把這些短語(yǔ)碎片構(gòu)成完整的句子,每個(gè)短語(yǔ)碎片的翻譯是通過(guò)類比的原則來(lái)實(shí)現(xiàn)的。因此,我們應(yīng)該在計(jì)算機(jī)中存儲(chǔ)一些實(shí)例,并建立由給定的句子找尋類似例句的機(jī)制,這是一種由實(shí)例引導(dǎo)推理的機(jī)器翻譯方法,也就是基于實(shí)例的機(jī)器翻譯方法。
????在基于實(shí)例的機(jī)器翻譯系統(tǒng)中,系統(tǒng)的主要知識(shí)源是雙語(yǔ)對(duì)照的翻譯實(shí)例庫(kù),實(shí)例庫(kù)主要有兩個(gè)字段,一個(gè)字段保存源語(yǔ)言句子,另一個(gè)字段保存與之對(duì)應(yīng)的譯文,每輸入一個(gè)源語(yǔ)言的句子時(shí),系統(tǒng)把這個(gè)句子同實(shí)例庫(kù)中的源語(yǔ)言句子字段進(jìn)行比較,找出與這個(gè)句子最為相似的句子,并模擬與這個(gè)句子相對(duì)應(yīng)的譯文,最后輸出譯文。
????基于實(shí)例的機(jī)器翻譯系統(tǒng)中,翻譯知識(shí)以實(shí)例和義類詞典的形式來(lái)表示,易于增加或刪除,系統(tǒng)的維護(hù)簡(jiǎn)單易行,如果利用了較大的翻譯實(shí)例庫(kù)并進(jìn)行精確的對(duì)比,有可能產(chǎn)生高質(zhì)量譯文,而且避免了基于規(guī)則的那些傳統(tǒng)的機(jī)器翻譯方法必須進(jìn)行深層語(yǔ)言學(xué)分析的難點(diǎn)。在翻譯策略上是很有吸引力的。
????要進(jìn)行基于實(shí)例的機(jī)器翻譯需要研究如下問(wèn)題:
????第一,正確地進(jìn)行雙語(yǔ)自動(dòng)對(duì)齊(alignment):在實(shí)例庫(kù)中要能準(zhǔn)確地由源語(yǔ)言例句找到相應(yīng)的目標(biāo)語(yǔ)言例句,在基于實(shí)例的機(jī)器翻譯系統(tǒng)的具體實(shí)現(xiàn)中,不僅要求句子一級(jí)的對(duì)齊,而且還要求詞匯一級(jí)甚至短語(yǔ)一級(jí)的對(duì)齊。
????第二,建立有效的實(shí)例匹配檢索機(jī)制:很多研究者認(rèn)為,基于實(shí)例的機(jī)器翻譯的潛力在于充分利用短語(yǔ)一級(jí)的實(shí)例碎片,也就是在短語(yǔ)一級(jí)進(jìn)行對(duì)齊,但是,利用的實(shí)例碎片越小,碎片的邊界越難于確定,歧義情況越多,從而導(dǎo)致翻譯質(zhì)量的下降,為此,要建立一套相似度準(zhǔn)則(similarity metric),以便確定兩個(gè)句子或者短語(yǔ)碎片是否相似。
????第三,根據(jù)檢索到的實(shí)例生成與源語(yǔ)言句子相對(duì)應(yīng)的譯文:由于基于實(shí)例的機(jī)器翻譯對(duì)源語(yǔ)言的分析比較粗,生成譯文時(shí)往往缺乏必要的信息,為了提高譯文生成的質(zhì)量,可以考慮把基于實(shí)例的機(jī)器翻譯與傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法結(jié)合起來(lái),對(duì)源語(yǔ)言也進(jìn)行一定深度的分析。
????我國(guó)是繼美國(guó)、蘇聯(lián)、英國(guó)之后,世界上第四個(gè)開(kāi)展機(jī)器翻譯研究工作的國(guó)家。當(dāng)今在機(jī)器翻譯方面居于先進(jìn)水平的日本,是在1958年才開(kāi)始進(jìn)行機(jī)器翻譯的,起步比我國(guó)為晚。
????與國(guó)外機(jī)器翻譯的發(fā)展情況相比較,我國(guó)機(jī)器翻譯除了有草創(chuàng)期、復(fù)蘇期和繁榮期之外,由于文化革命的影響,還有一個(gè)非常特別的時(shí)期--停滯期,而且,由于我國(guó)機(jī)器翻譯在理論上和方法上以及設(shè)備上的底子都很薄,我國(guó)機(jī)器翻譯的每一個(gè)時(shí)期又都比國(guó)外機(jī)器翻譯的同樣時(shí)期稍微滯后。
????(1)草創(chuàng)期(1956年--1966年)
????在這個(gè)時(shí)期,我國(guó)學(xué)者對(duì)機(jī)器翻譯進(jìn)行了初步的探索和試驗(yàn)。1956年,國(guó)家便把機(jī)器翻譯研究列入了我國(guó)科學(xué)工作的發(fā)展規(guī)劃,成為其中的一個(gè)課題,課題的名稱是:“機(jī)器翻譯、自然語(yǔ)言翻譯規(guī)則的建立和自然語(yǔ)言的數(shù)學(xué)理論”。1957年,中國(guó)科學(xué)院語(yǔ)言研究所與計(jì)算技術(shù)研究所合作,開(kāi)展俄漢機(jī)器翻譯的研究。1959年,他們?cè)谖覈?guó)制造的104大型通用電子計(jì)算機(jī)上,進(jìn)行了俄漢機(jī)器翻譯試驗(yàn),翻譯了9個(gè)不同類型的、較為復(fù)雜的句子。在這個(gè)草創(chuàng)時(shí)期,北京外國(guó)語(yǔ)學(xué)院、北京俄語(yǔ)學(xué)院、廣州華南工學(xué)院、哈爾濱工業(yè)大學(xué)也分別成立了機(jī)器翻譯研究組,開(kāi)展俄漢或英漢機(jī)器翻譯的試驗(yàn)。
????(2)停滯期(1966年--1975年)
?????在這個(gè)時(shí)期,除了極少數(shù)的機(jī)器翻譯研究者在極端惡劣的條件下繼續(xù)進(jìn)行理論探索之外,沒(méi)有進(jìn)行任何的機(jī)器翻譯研究和試驗(yàn)。
????(3)復(fù)蘇期(1975年--1987年)
????在這個(gè)時(shí)期,我國(guó)機(jī)器翻譯研究重振旗鼓,開(kāi)始復(fù)蘇,繼續(xù)進(jìn)行機(jī)器翻譯研究。1975年11月,在中國(guó)科學(xué)技術(shù)情報(bào)研究所設(shè)立了一個(gè)由情報(bào)所、語(yǔ)言所和計(jì)算所等單位的工作人員組成的機(jī)器翻譯協(xié)作研究組,以冶金題錄5000條為試驗(yàn)材料,制定英漢機(jī)器翻譯方案并上機(jī)試驗(yàn)。1978年5月,在計(jì)算所111機(jī)上進(jìn)行抽樣試驗(yàn),抽樣20條,達(dá)到了預(yù)期的效果。在這個(gè)時(shí)期,我國(guó)學(xué)者還開(kāi)展了法漢、德漢、日漢以及漢-法/英/日/俄/德多語(yǔ)言機(jī)器翻譯試驗(yàn),取得了一定的成效。
????(4)繁榮期(1987年--現(xiàn)在)
?????這個(gè)時(shí)期是以中國(guó)軟件技術(shù)公司的“譯星1號(hào)”機(jī)器翻譯系統(tǒng)的問(wèn)世為標(biāo)志的。繼“譯星1號(hào)”之后,一系列的實(shí)用化商品化的機(jī)器翻譯系統(tǒng)如雨后春筍般地推向市場(chǎng),北京的“高立”系統(tǒng)、陜西的“朗威”系統(tǒng)、天津的“通譯”系統(tǒng)、深圳的LIGHT系統(tǒng)都擁有了一定數(shù)量的用戶,我國(guó)的機(jī)器翻譯邁向了實(shí)用化和商品化的階段,機(jī)器翻譯軟件從實(shí)驗(yàn)室走向了市場(chǎng)。在這個(gè)時(shí)期,我國(guó)也開(kāi)展了基于實(shí)例的機(jī)器翻譯研究,并取得了初步的成果。
谷歌最近開(kāi)始42種語(yǔ)言的自動(dòng)翻譯免費(fèi)服務(wù),是機(jī)器翻譯發(fā)展史上的重大進(jìn)展。
機(jī)器翻譯是國(guó)際十大科技難題之一,由于自然語(yǔ)言是十分復(fù)雜和豐富的,不可能用電子計(jì)算機(jī)表達(dá)得淋漓盡致,因此,機(jī)器翻譯與人工翻譯總是會(huì)存在一定的差距。人類對(duì)于自然語(yǔ)言的認(rèn)識(shí)是沒(méi)有止境的,機(jī)器翻譯軟件的研究和探索也是沒(méi)有止境的。
?注:?文章引用自:http://blog.sina.com.cn/s/blog_72d083c70100nyxv.html
???????????????????????參考文獻(xiàn)
1.????W. J. Hutchens, latest Development in MT Technology: Beginning a New Era in MT Research. In : Proceedings of Machine Translation Summit-IV, Kobe, Japan, 1993.
2.????馮志偉,自動(dòng)翻譯,上海知識(shí)出版社,1987年。
3.????馮志偉,自然語(yǔ)言機(jī)器翻譯新論,語(yǔ)文出版社,1994年。
4.????馮志偉,自然語(yǔ)言的計(jì)算機(jī)處理,上海外語(yǔ)教育出版社,1996年。
轉(zhuǎn)載于:https://www.cnblogs.com/inspirationhyl/p/3636040.html
總結(jié)
以上是生活随笔為你收集整理的机器翻译软件从实验室走向市场的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 求首位相连一维数组最大子数组的和
- 下一篇: MFC中的几个常用类——CFileDia