腾讯民汉翻译征战全国机器翻译大赛夺得双冠
導語 :一年一度的全國機器翻譯大賽(CCMT 2019)于7月20日公布了比賽結果,來自TEG的騰訊民漢翻譯團隊自去年拿下英漢翻譯冠軍之后,再一次載譽而歸。團隊經過多日奮戰,最終在30個參賽單位的角逐中脫穎而出,以絕對優勢獲得三個民族語種中“維吾爾-漢"、“蒙古-漢”任務冠軍。而在一個月前國家部委舉辦的企業級機器翻譯系統評測(非受限數據集)中,騰訊民漢翻譯團隊參加了兩個項目,獲得了藏語-漢語冠軍,維吾爾語-漢語亞軍的成績,這些成績彰顯了騰訊在民族語言技術領域的核心競爭力。
第十五屆全國機器翻譯大賽(China Conference on Machine Translation,CCMT2019)由中國中文信息學會主辦,旨在為國內外機器翻譯界同行提供一個平臺,加強國內外同行的學術交流,促進中國機器翻譯事業,迄今為止已連續成功召開十四屆。CCMT不僅是國內機器翻譯領域最具影響力、最權威的學術和評測活動,而且也代表著漢語與民族語言翻譯技術的最高水準,對民族語言技術發展具有重要意義。
在本次大賽中,參賽隊伍的數量再創新高,包括NICT、中科院自動化所、中科院計算所、北大、北航、上交大、華為、OPPO等30多個國內外知名高校和企業;尤以CCMT每年的特色項目——中國的三大少數民族語種維吾爾語,藏語和蒙古語三個方向的翻譯任務競爭最為激烈。這次騰訊民漢翻譯團隊只參加了這三個項目,并且頂住壓力,在維吾爾語-漢語,蒙古語-漢語任務中獲得冠軍,超越了去年的成績。此次比賽為受限數據集,即必須使用組委會提供訓練數據,這也就意味著,參賽各個單位必須以技術進行實力的角逐。
而在較早前,騰訊民漢翻譯團隊與騰訊翻譯君團隊強強聯手,在國家部委舉辦的企業級機器翻譯系統評測(非受限數據集)中,代表騰訊公司取得總成績第一。其中騰訊民漢翻譯團隊參加了兩個項目,最終結果為藏語-漢語冠軍,維吾爾語-漢語亞軍。而翻譯君團隊則獲得了俄、法、韓、越、英等語種的前二名,為公司爭取了榮譽。
下表列出本次CCMT大賽維吾爾語到漢語前10名系統得分情況:
Fig.1 CCMT 2019 維漢評測主系統評測結果(僅列出前10)
下表列出本次CCMT大賽蒙古語到漢語前10名系統得分情況:
Fig.2 CCMT 2019 蒙漢評測主系統評測結果(僅列出前10)
注:為表示對參評單位的尊重,和各單位對共同促進機器翻譯產學研落地做出的努力,評測結果中已隱去參評單位信息。
此次團隊在CCMT比賽能取得冠軍,也得益于其特色產品“騰訊民漢翻譯”,這款輕量級的小程序上實現了to C高并發的實時語音同聲翻譯,以及全自動圖像拍照翻譯。并支持蒙,藏(安多,康巴,衛藏),維,哈,朝,彝,壯等多種少數民族語言。上線半年以來,這款小眾產品截至目前累計用戶已經接近30萬多,周留存率達到18%。在新疆駐村干部,語言學習者,旅游者中,獲得了良好的口碑,也逐漸滲透到了少數民族同胞的生活當中,切切實實地解決了數十萬民族同胞們日常跨語種實時交流、辦公、學習的問題。
以下是民族語和漢語的同聲傳譯:
以下是民族語和漢語全自動化拍照翻譯,用戶不用選擇語種和圖像方向,隨心想拍就拍:
事實上,這款產品背后的騰訊民族語言音視圖文技術已經得到眾多組織和機構的認可,并在國內外各大學術和產業競賽中獲獎無數。如2018年全國維吾爾語分詞大賽(MLWS) 第1名;2018年世界機器翻譯大賽(WMT 18)第2名;2018年全國民漢CWMT翻譯比賽總成績第1名;2018年世界東方語種識別大賽第2名;2019年國家部委機器翻譯評測藏語第1名,維語第2名;2019年ICDAR 多語種OCR識別競賽第2名等等。在6月中國人工智能協會舉辦的中國人工智能峰會(CAIS 2019)上,騰訊民漢翻譯也從50多個項目評選中脫穎而出,獲得“紫金技術創新獎”。
騰訊民漢翻譯獲得“紫金技術創新獎”
在比賽過程中,騰訊民漢翻譯團隊以公司為家,鏖戰了幾個晝夜,將騰訊民漢翻譯在產品中長期磨礪出來的一系列技術積累和豐富經驗,結合2019年最前沿的機器翻譯算法,研發出一整套民族語言翻譯的技術參賽方案,如下圖所示:
Fig. 3 提交系統的技術路線圖
1. 系統主干模型
在模型的選擇上,團隊采用基于自注意力的Transformer框架作為基準模型結構,在此基礎上為了能使模型有更好的性能表現,還做了以下幾方面的改進:1)團隊使用了更大的模型參數,將模型維度以及前饋網絡層(FFN Layer)分別增大至1024維和4096維。更大的模型代表著更大的模型容量以及更強的表達能力;2)將前饋網絡層的ReLU激活函數更換為Swish激活函數,試驗結果表明Swish激活函數的使用帶來了性能上的提升;3)將Transformer網絡層中的Layer Normalization前置,即使用Pre-Layer Normlaization。以下為模型結構圖:
Fig. 4?模型結構圖
2. 低資源數據擴充算法
在數據增強方面,反向翻譯(Back-translation)過程中不僅采用了束搜索的方法,同時不受限采樣(unlimited sampling)、受限top-k采樣(limited top-k samplling) 等方法的使用也增加了偽數據的多樣性。在資源稀缺的情況下,為提高偽數據的質量,團隊嘗試了迭代的反向翻譯(Iterative Back-translation)技術,通過多輪迭代達到了正反向模型性能相互促進的目的。此外,團隊首次采用了帶標簽的反向翻譯(Tagged Back-translation),該方法通過分別對真實數據和偽數據打特定標簽的方式,使得模型能夠更有效的分辨這兩類數據。在數據選取(Data Selection)方面,該團隊采用了最新的n-gram語言模型打分方法,即對訓練集和測試集計算n-gram語言模型得分,后通過得分差從訓練集選擇與測試集相似的子集合。除此之外,在業界首次將最新的BERT框架引入到數據選取方法上。更具體的,在NLP團隊的自研BERT框架基礎上,通過增加兩層前饋神經網絡層,訓練出具有高準確性的分類模型。下圖列出反向翻譯實驗結果:
Fig. 5 反向實驗結果
3. 模型蒸餾和訓練
在訓練方面,為了保證模型能夠充分收斂,以校驗集上的BLEU分作為標準采用Early-stop方法,在模型連續5至10次不能有性能上的提升時結束訓練。同時,采用Optimizer-delay的方法模擬多卡數據并行以增加Batch大小,進一步提升了模型性能。另外,團隊還嘗試使用了Custom Embedding、Guided Alignment、Data Weighting等訓練方法。其中,Custom Embedding方法在源和目標單語數據上使用word2vec工具預先訓練好詞向量,并將訓練結果初始化給翻譯模型,翻譯模型進一步以訓練或固定詞向量的方法進行訓練。Guided Alignment方法則使用傳統的詞對齊信息引導神經機器翻譯模型中的注意力機制。Data Weighting方法可以給訓練集中的句子或短語給予一定的權重,使權重較高的句子或短語能對模型有更大的影響。團隊在使用大量偽數據和真實數據合并的數據進行預訓練時對真實數據賦予更高的權重,同時適當降低了偽數據的權重,從而達到模型更偏向真實數據的目的。在機器翻譯中,模型蒸餾是使用Teacher模型將訓練數據的源語言進行解碼,生成目標端是偽數據但源端為真實數據的新平行語料,Student模型使用該語料進行學習的方法。不同于反向翻譯,模型蒸餾方法希望通過這種方式使Student模型學習Teacher模型的分布。在本次大賽中,民漢團隊將模型蒸餾的方法應用在模型微調訓練階段,并在生成偽數據的方式上使用了以下幾種方法:
Teacher模型解碼時使用束搜索生成Top1譯文供Student模型訓練(Knowladge Distillation, KD);
Teacher模型輸出nbest結果,并通過計算句子級的BLEU分選擇與原始目標端句子最相似的譯文供Student模型訓練(Interpolation, Inter);
將上述兩個方法有效融合,在KD的基礎上進一步使用Inter方法進行微調(KD+Inter);
將單個Teacher模型升級為多個Teachter融合模型進行解碼(Ensemble Distillation, ED);
4. 解碼和調優
在解碼部分,團隊使用了分數平均的模型融合方法,并對輸出nbest進行了重排序。模型融合方面使用了3至14個不等的模型進行融合。重排序方面除標準模型輸出分(L2R)外,還包括從右至左翻譯模型打分(R2L)、反向翻譯模型打分(T2S)、n-gram語言模型打分(LM)、長度懲罰(WP)、正反向對其概率(FAP/RAP)以及翻譯覆蓋度(Translation Coverage)等特征,最終通過MIRA來對每個特征的權重進行調優。下圖為提交系統結果:
Fig. 6 提交系統結果
本次比賽中,大部分技術都已經反哺在“騰訊民漢翻譯”產品中。
我們深知,獲得比賽冠軍只是AI在民族語言落地的一小步。而如何將技術和人民群眾的對于語言的需求和痛點結合,打造改善民族地區千萬人群生活的產品,構建民族語言的終極巴別塔,才是團隊持之以恒的追求。用技術改善生活,用實力落地情懷,是TEG er不變的信念與追求。
科技向善,我們一直在路上。
參考文獻
[1] Hu, B., Han, A., Huang, S.: TencentFmRD Neural Machine Translation for WMT18
[2] Hu, B., Han, A., Huang, S.: TencentFmRD Neural Machine Translation System
[3] Sennrich, R., Haddow, B., Birch, A.:Improving Neural Machine Translation Models with Monolingual Data.
[4]?Edunov, S., Ott, M., Auli, M., Grangier, D.,: Understanding Back-Translation at Scale.
[5]?Imamura, K., Fujita, A., Sumita, E.:Enhancement of encoder and attention using target monolingual corpora in neural machine translation.
[6] Hoang, V. C. D., Koehn, P., Haari, G., Cohn, T.:Iterative Back-Translation?for Neural Machine Translation.
[7]?Kim, Y., Rush, A., M.:Sequence-Level Knowledge Distillation.
[8]?Freitag, M., Al-Onaizan, Y., Sankaran, B.:Ensemble distillation for neural machine translation.
總結
以上是生活随笔為你收集整理的腾讯民汉翻译征战全国机器翻译大赛夺得双冠的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 综述 | 生成对抗网络(GAN)在图网络
- 下一篇: 献礼724运维日 | 首届腾讯运维技术开