Google 翻译,梦想与现实的距离有多远
在信息紛繁如大洋般浩浩的互聯網時代,操持各自語言的人們匯聚網絡,言之紛紛,書之不息,各類信息無時不發,無處不在……不論是經典著述、長篇大論,抑或巧思短文、靈感的火花……似乎,互聯網承載和傳播了這個星球上人類的所有智慧。然而,一個簡單的事實讓信息攜帶智慧流通全球還依然只是一個夢想——即:不同語言之間無法直接溝通。為解決這個問題,機器翻譯隨科技的發展應運而生,并不斷發展。
前面的廢話
曾經有一個夢想——希望能輕松讀懂英文,至少在看一篇沒有太多文學色彩的技術文章時,可以明白個八九不離十。
也曾經不自量力——在借助機器翻譯求學外文失敗之后,試圖研究機器翻譯應當如何進行……
世界發展真快,失望、悵然與自知無能為力的幾年虛度,曾經的渴望和若有所研的心得早已拋諸天外。直至幾年前,Google 推出了翻譯服務,經初步試用,如果要求不高的話,感覺翻譯效果也算是不錯!(注:不能用專業的人工翻譯和機器自動翻譯比質量)。免費使用,及時快速,在信息飛速流動的互聯網時代,有這樣的免費服務已經很知足了。(其實很想說一聲謝謝!)
機器翻譯的質量
一個顯而易見的前提是,機器翻譯不可能與人工翻譯相比。在目前的技術條件下,一般認為機器翻譯如果有 60% 以上的準確率就基本可用了。目前機器翻譯已經發展到“基于短語的翻譯,并正在融合句法信息,以進一步提高翻譯的精確性”(摘自維基百科“機器翻譯”詞條)。從對 Google 翻譯服務的試用來看,其對簡單短句、短語、以及習慣用語的翻譯都還不錯,翻譯包含了對句法詞序的轉換處理。
那么,現階段我們是否可以期待計算機對普通長句也有比較好的翻譯效果呢?
簡單的答案是:No!
復雜一點的答案也許是:我們可以有這樣的期望嗎?
或許,我們可以有這樣的期望。但我們需要作出一些付出!請細想一下,我們通常所見的那長長的句子,它是否可以被分解為多個短句呢?如果短句與短句之間有語法上的主次關系,它們是否可以被包裝成一個父級的簡單句呢(即視短句僅為一個占位單元)?如果答案是肯定的,那長句就可以拆解封裝成簡單句的組合了(可能有多層)。
這是無意中嘗試的一個例子,請看:
原文:“為什么計算機合成語音多數是女聲。”
Google 譯成英文:“Why do the majority of female computer synthesized speech.”
用該譯文譯回中文:“為什么大多數女性電腦合成語音。”
一正一反兩次互譯,含義已經相去甚遠了。但我們嘗試一下分解策略:
中文分解??????????????? Google 譯文
-------------------------------------------------
1. 計算機合成語音?????? Computer-synthesized voice
2. 女 聲??????????????? Female voice? // 注:原譯為 Girl,應是個 Bug,中間空一格即可
3. 多數???????????????? Most
4. 為什么 X 是 Y??????? Why X is Y?? // X 和 Y 是占位符,此處是取其語法翻譯
組合后譯文:“Why <Computer-synthesized voice> <Most> is <Female voice>”
去掉尖括號:“Why Computer-synthesized voice Most is Female voice.”
用該譯文譯回中文:“為什么電腦合成的聲音大多是女性的聲音。”
效果如何! 有種驚艷的感覺吧?
再來一句試試:
原文:“互聯網以英文為主是不爭的事實,”
Google 譯成英文:“Internet in English is an indisputable fact,”
用該譯文譯回中文:“在英國的互聯網是一個不爭的事實,”
中文分解??????????????? Google 譯文
-------------------------------------------------
1. 互聯網?????????????? Internet
2. 英文???????????????? English
3. XX 以 YY 為主??????? XX to YY-based
4. XX 是不爭的事實????? XX is an indisputable fact
組合得譯文:“Internet to English-based is an indisputable fact,”
用該譯文譯回中文:“以英語為主的互聯網是一個不爭的事實,”
與直接回譯的差別是不是有點大,與原文的意思是不是基本符合?
看到這里,是否,我們真的可以有某些期望? 或許,這是一個需要努力但并非太多努力就可接近的目標! 請抱持思考和理性批評的心態看待下面的解說。
長句拆解,短句組合構造長句譯文
一般來說,對于具有較深文學色彩的文字,因大多包含隱喻,上下文環境依賴等,機器翻譯十分困難。但對于普通的文法較為規范的描述性文章(如技術類說明書,使用手冊等),如果句法足夠簡單,則機器翻譯的表現已很不錯。
如上所見,如果人工稍作參與,通過長句分解,機器翻譯整篇文章或許也會有比較理想的結果。這里,我們需要對長句進行邏輯判斷和拆解,如果必要,構造父級的句法特征句(如“XX 以 YY 為主”,XX 為占位符,代表相應子句,用于語法轉換),則人工參與的并不多,但效果卻會很大。
對原文進行拆解標識的意義
或許,你認為人工參與機器翻譯并不劃算,太低級,理想的機器翻譯應當是完全的無人工自動執行。確實,這是人人期盼理想狀態,但那離現實似乎太過遙遠(個人看法)。
表面上看,一旦人工參與,任何機器無法解決的智能問題都會化解,所以,人工參與不是解決問題的辦法——這僅是簡單地看問題。
我想說,這觀點低估了人腦智能的復雜性,對機器智能寄予了過高的期望。另外,這也忽略了一個重要事實,即——分析拆解工作其實是“一次性”的。當我們對原文做好語法標識后,就可以撒手不管它將要被翻譯到何種語言了。注意!這里沒有指明何種語言,因為——這適用于翻譯到任何一種語言——所作與目標語言無關,標識僅僅是說明了自己。
還有一點,精通一門語言易,精通多門語言難,通曉一門語言的人很多,通曉多門語言的人很少。任何一個人,只要母語多少有些修養,就可以標識用母語寫的文章,從而幫助作者的文章得到翻譯,或作者自行標注,讓自己的文章可以直接被翻譯。人機結合,這對翻譯人員的門檻降到了最低——好寬廣的群眾基礎啊! 夢想,是否有實現的可能?
技術性的個人研究分享
很淺薄,請不吝賜教……
從上面的分析看,借助于 Google 翻譯服務的 API,現階段就可以編寫并不復雜的程序,實現可行的通篇文章機器翻譯,但前提條件是,原文需要被適當標識。個人認為標識文章的語法應當盡量簡單,以利于大眾化普及,由于機器翻譯服務已有初步的智能,簡單標識已經可行。
筆者設計的標識邏輯有 3 層,共 7 個標識字,如下:
??? 頂層: 子句,標識字 clause
??? 中層: 短語,標識字 phrase,包含常用習語、俗語、俚語等
??? 底層: 單詞,標識字 名詞 word-n,動詞 word-v。
????
??? 另外兩個特殊詞,人名 names,術語 term,一般情況下保持為不翻譯,需標識出來。
如果僅針對長句拆解,底層的單詞標注其實已經不需要,這里加入是方便將來機器對短句進行更加準確的判斷。
標識例子1(Html 代碼,用 class 屬性表達):
??? <span class="syntax">
??????? <span class="phrase">為什么</span>
??????? <span class="clause">
??????????? <span class="word-n">計算機</span><span class="word-v">合成</span><span class="word-n">語音</span>
??????????? // 注:這一句其實不必拆解,它可能已成為一個術語
??????? </span>
??????? <span class="clause">
??????????? 多數<span class="word-v">是</span><span class="phrase">女聲</span>
??????? </span>,
??? </span>
標識例子2
??? <span class="syntax">
??????? <span class="clause">其中一個<span class="word-n">答案</span></span>
??????? 可能在于
??????? <span class="clause">
??????????? 人類的<span class="phrase">生物機制</span>
??????? </span>。
??? </span>
注:
1. 代碼最外圍用 syntax 包含,表示內部為語法標識。
2. 并非所有的文字都需要標注,將句子切分以表達出邏輯關系即可。
3. 一些介詞、助詞之類的字是語法標志詞,不需要標注。
拋磚引玉,期待探討!謝謝。
來源:讀者原創投稿,作者:乙謌
?
轉載于:https://www.cnblogs.com/helenR/p/googletranslate.html
總結
以上是生活随笔為你收集整理的Google 翻译,梦想与现实的距离有多远的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LELE的RPG难题
- 下一篇: 关于Qt 弹窗