ACL 2020 | 多编码器是否能够捕获篇章级信息?
?PaperWeekly 原創(chuàng) ·?作者|李北
單位|小牛翻譯?/?東北大學(xué)NLP實(shí)驗(yàn)室
研究方向|神經(jīng)機(jī)器翻譯、深層網(wǎng)絡(luò)建等
?
本文驗(yàn)證了多編碼器在篇章級(jí)翻譯任務(wù)上性能的提升并不是來(lái)源于上下文編碼器對(duì)篇章級(jí)語(yǔ)義信息的編碼,其更像是一個(gè)噪聲生成器,為模型的訓(xùn)練提供了額外的訓(xùn)練信號(hào)。
其次,在解碼階段屏蔽上下文編碼器對(duì) BLEU 并沒(méi)有影響,進(jìn)一步證明了上下文編碼器在訓(xùn)練中類(lèi)似于 dropout 作用。此外,本文提出一種基于高斯噪聲的魯棒性訓(xùn)練手段,可以達(dá)到和多編碼器可比的性能,并在不同規(guī)模數(shù)據(jù)集上驗(yàn)證了方法的有效性。本文已被 ACL 2020 收錄。
論文標(biāo)題:Does Multi-Encoder Help? A Case Study on Context-Aware Neural Machine Translation
論文來(lái)源:ACL 2020
論文鏈接:https://arxiv.org/abs/2005.03393
代碼鏈接:https://github.com/libeineu/Context-Aware
篇章級(jí)翻譯模型
近年來(lái),神經(jīng)機(jī)器翻譯(Neural Machine Translation)已經(jīng)取得了突破性的進(jìn)展,尤其是目前基于自注意力機(jī)制的 Transformer [1] 模型掀起學(xué)術(shù)界的廣泛關(guān)注,同時(shí)在工業(yè)界中也被廣泛應(yīng)用。
目前神經(jīng)機(jī)器翻譯模型通常采用編碼器-解碼器(Encoder-Decoder)[2] 的框架來(lái)完成源語(yǔ)言序列到目標(biāo)語(yǔ)言序列的轉(zhuǎn)換。其中,編碼器對(duì)源語(yǔ)序列進(jìn)行編碼,得到稠密的實(shí)數(shù)向量表示,進(jìn)而提取源語(yǔ)序列中的語(yǔ)義信息。之后解碼器再利用該表示逐詞地生成目標(biāo)語(yǔ)序列。
目前的主流神經(jīng)機(jī)器翻譯模型都是基于句子級(jí)的,模型學(xué)習(xí)的是不同源語(yǔ)句子與目標(biāo)語(yǔ)句子之間的映射關(guān)系,但是忽略了一個(gè)篇章中句子之間的上下文信息。然而在一些篇章翻譯的場(chǎng)景中,句子間的上下文信息是不可或缺的。
比如在出現(xiàn)一些指代或者一詞多義的情況中,在當(dāng)前句子無(wú)法做出區(qū)分時(shí),往往需要根據(jù)句子間的上下文來(lái)確定其正確形式或詞義,從而生成更連貫、一致的譯文。這種編碼上下文信息的建模方法通常被稱(chēng)為篇章級(jí)翻譯(Context-Aware Machine Translation)。
如何高效地對(duì)額外的篇章級(jí)信息進(jìn)行建模一直以來(lái)廣受關(guān)注。目前有兩種常見(jiàn)的做法來(lái)編碼篇章信息:第一種是將當(dāng)前句子的上下文與其進(jìn)行拼接,得到一個(gè)多句的輸入序列,將該序列作為輸入送入模型,同時(shí)不需要修改模型結(jié)構(gòu);另外一種是采用多編碼器(Multi-encoder)結(jié)構(gòu),通過(guò)額外的編碼器來(lái)對(duì)上下文信息進(jìn)行特征提取,之后與源語(yǔ)信息進(jìn)行融合后用于目標(biāo)語(yǔ)生成。
對(duì)比單編碼器結(jié)構(gòu),多編碼器可以更有效地對(duì)源語(yǔ)的上下文信息進(jìn)行建模,其翻譯性能更加顯著。一些研究工作已經(jīng)通過(guò)機(jī)器翻譯的自動(dòng)評(píng)價(jià)指標(biāo) BLEU 和一些專(zhuān)用測(cè)試指標(biāo)來(lái)證明其方法的有效性。然而,由于篇章級(jí)的平行雙語(yǔ)語(yǔ)料資源比較稀缺,常用的數(shù)據(jù)集規(guī)模比較小,其翻譯性能也存在較大的波動(dòng)。
例如,在小數(shù)據(jù)集上(IWSLT 等)合理地調(diào)整 dropout 的閾值能夠明顯的改善翻譯質(zhì)量。同時(shí)研究者發(fā)現(xiàn)在一些任務(wù)中,BLEU 值的提升不僅僅來(lái)自于多編碼器提供的額外源語(yǔ)相關(guān)信息,還來(lái)自于魯棒性訓(xùn)練,額外的編碼器可以看作一個(gè)噪音生成器來(lái)提供更多的訓(xùn)練信號(hào)。因此,研究者通過(guò)在一些篇章級(jí)翻譯任務(wù)上對(duì)多編碼器結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),進(jìn)一步證實(shí)這個(gè)觀點(diǎn)。
模型結(jié)構(gòu)
篇章級(jí)翻譯模型通過(guò)在翻譯過(guò)程中結(jié)合句子間的上下文信息來(lái)獲得更好的翻譯結(jié)果,目前,這種端到端的模型大體可以分為兩類(lèi):單編碼器模型(Single-encoder)[3] 和多編碼器模型 [4] [5] [6]。單編碼器模型做法比較簡(jiǎn)單,不改變模型結(jié)構(gòu),通過(guò)將模型輸入進(jìn)行拼接的方式來(lái)捕捉句子間上下文信息。
多編碼器模型通過(guò)額外的編碼器結(jié)構(gòu)來(lái)對(duì)上下文信息進(jìn)行表示,然后結(jié)合到整體翻譯模型中。此外,一些研究人員通過(guò)共享編碼器或者采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)上下文表示進(jìn)行抽取 [7] [8],也可以近似看作是多編碼器結(jié)構(gòu)。
在多編碼器結(jié)構(gòu)中,根據(jù)解碼端對(duì)源語(yǔ)表示與上下文表示的集成方式,可以大致分為內(nèi)部集成(Inside Integration)和外部集成(Outside Integration)兩類(lèi)。其中,外部集成 [5] [7] [8] 是指將源語(yǔ)編碼器和上下文編碼器的編碼結(jié)果在送入解碼器之前進(jìn)行融合,得到一個(gè)統(tǒng)一的表示,具體融合方法可以采用注意力操作和門(mén)控的方式。
與之相反,內(nèi)部集成的方法是指將兩個(gè)編碼結(jié)果分開(kāi)獨(dú)立地送入解碼器結(jié)構(gòu)中,可以采取串行計(jì)算 [6] 與并行計(jì)算 [4] 兩種融合方式。下圖展示了外部集成和內(nèi)部集成(并行)的模型結(jié)構(gòu):
▲ 圖:多編碼器結(jié)構(gòu)的兩類(lèi)集成方式
訓(xùn)練方式
由于篇章級(jí)雙語(yǔ)數(shù)據(jù)相對(duì)較少,無(wú)法滿(mǎn)足多編碼器訓(xùn)練所需,因此需要采取一些方法來(lái)緩解數(shù)據(jù)稀缺的問(wèn)題。常見(jiàn)的方法有兩種:一種是參數(shù)共享 [5] [7],通過(guò)共享上下文編碼器和源語(yǔ)端編碼器的部分或全部參數(shù),來(lái)減輕模型訓(xùn)練負(fù)擔(dān);
另一種是兩階段訓(xùn)練 [6] [8],首先使用雙語(yǔ)數(shù)據(jù)對(duì)句子級(jí)翻譯模型進(jìn)行預(yù)訓(xùn)練,然后在多編碼器模型訓(xùn)練時(shí)復(fù)用其參數(shù),繼續(xù)訓(xùn)練剩余參數(shù)或全體參數(shù)。為了選取合適的基線(xiàn),研究者首先對(duì)比了兩種訓(xùn)練策略,結(jié)果如下表所示:
▲ 表:不同訓(xùn)練策略的BLEU性能比
其中,多編碼器模型采用外部集成的方式;WS 為共享了上下文編碼器與源語(yǔ)端編碼器的前 n-1 層參數(shù);TS 為采取兩階段訓(xùn)練方式,在句子級(jí)模型基礎(chǔ)上訓(xùn)練整體模型。可以看到,兩種策略都能取得顯著提升,同時(shí)兩階段訓(xùn)練的方式相比參數(shù)共享具有些許的優(yōu)勢(shì)。
其次,單層的上下文編碼器也能取得和 6 層可比的結(jié)果,這可能是由于訓(xùn)練數(shù)據(jù)有限,所以不需要太復(fù)雜的模型。因此,研究者在之后的實(shí)驗(yàn)中采用了單層上下文編碼器及兩階段訓(xùn)練的策略來(lái)訓(xùn)練多編碼器模型。
不同上下文輸入的對(duì)比
為了探究多編碼器結(jié)構(gòu)對(duì)最終翻譯性能的影響,研究者提出了三種不同的上下文來(lái)進(jìn)行對(duì)比實(shí)驗(yàn):
真實(shí)上下文(Context):當(dāng)前待翻譯句子的前一句。
隨機(jī)上下文(Random):在詞典中隨機(jī)采樣構(gòu)造的偽上下文。
固定上下文(Fixed):固定的一個(gè)句子。
此外,研究者在多個(gè)語(yǔ)種的翻譯任務(wù)上進(jìn)行實(shí)驗(yàn),數(shù)據(jù)規(guī)模及實(shí)驗(yàn)結(jié)果如下表所示:
?
▲ 表:數(shù)據(jù)集規(guī)模
▲ 表:上下文對(duì)比實(shí)驗(yàn)結(jié)果
?
其中 Zh-En 和 Fr-En 的數(shù)據(jù)來(lái)自于 IWSLT 的評(píng)測(cè)數(shù)據(jù),En-De 數(shù)據(jù)來(lái)自 WMT 評(píng)測(cè)數(shù)據(jù),而 En-Ru 數(shù)據(jù)來(lái)自于 Opensubtile。上表展示了多個(gè)篇章級(jí)模型在接收不同輸入的條件下在上述 4 個(gè)數(shù)據(jù)集的翻譯性能。為了保證結(jié)論的嚴(yán)謹(jǐn)性,研究人員分別在 dropout 為 0.1 和 0.3 的條件下進(jìn)行實(shí)驗(yàn)。從表中可以觀測(cè)到如下幾個(gè)現(xiàn)象:
多編碼器模型對(duì)比單編碼器和句子級(jí)模型在 4 個(gè)數(shù)據(jù)集上有明顯的性能提升
改變 dropout 的大小可以有效地緩解小數(shù)據(jù)集上的過(guò)擬合問(wèn)題,顯著地提升模型的翻譯性能
內(nèi)部集成與外部集成的方法均帶來(lái)不小的 BLEU 值提升。然而隨著 dropout 值的增大,整體模型性能有了更大提升,但與句子級(jí)模型的差別變得更小。
隨機(jī)上下文和固定上下文并沒(méi)有提供真實(shí)的上下文信息,卻得到了與真實(shí)上下文相似的提升。這里進(jìn)一步驗(yàn)證了 BLEU 值的提升并不是來(lái)自于額外的上下文信息,而是類(lèi)似于引入了噪聲信號(hào),起到了正則化的作用。
魯棒性訓(xùn)練
前文提到,多編碼器可能起到了噪聲產(chǎn)生器的作用,為模型提供更多訓(xùn)練信號(hào)。為了進(jìn)一步驗(yàn)證這種假設(shè),研究者在推理的時(shí)候屏蔽了上下文編碼器生成的編碼表示,結(jié)果如下表所示:
▲ 表:在推理時(shí)屏蔽上下文信息
表中觀測(cè)到屏蔽上下文信息后,BLEU 值并沒(méi)有下降,在一些測(cè)試集上甚至?xí)杂刑嵘?#xff0c;進(jìn)一步確認(rèn)了 BLEU 的提升不僅來(lái)自于上下文信息,更像是一種噪聲生成器。簡(jiǎn)單來(lái)說(shuō)上下文編碼器得到表示作為一種噪聲對(duì)網(wǎng)絡(luò)的整體訓(xùn)練起到了正則化的作用。
此外,受啟發(fā)于外部集成的方式,研究者提出使用一個(gè)高斯分布來(lái)模擬上下文編碼器的作用,在源語(yǔ)編碼器表示基礎(chǔ)上直接添加一個(gè)高斯噪聲,用來(lái)探究上下文編碼器是否起到類(lèi)似的作用,結(jié)果如下表所示:
▲ 表:高斯噪音對(duì)比
可以看到,添加高斯噪音進(jìn)行訓(xùn)練可以進(jìn)一步提升模型的性能,甚至比多編碼器外部集成方法略好一些,然而二者結(jié)合在一起沒(méi)有帶來(lái)疊加的效果。這更說(shuō)明了多編碼器本質(zhì)上起到了類(lèi)似噪聲生成器的作用,噪聲的疊加并不能帶來(lái)明顯的增益。
更大規(guī)模的訓(xùn)練
由于篇章級(jí)雙語(yǔ)數(shù)據(jù)較為稀缺,上述大部分實(shí)驗(yàn)數(shù)據(jù)集相對(duì)較小。為了探究不同規(guī)模數(shù)據(jù)是否具有相同的現(xiàn)象,研究者使用 500k 至 5M 的中英雙語(yǔ)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),分別對(duì)比了句子級(jí)模型,隨機(jī)上下文和添加高斯噪聲三種方法的翻譯性能。結(jié)果如下圖所示:
▲ 圖:不同規(guī)模數(shù)據(jù)對(duì)比
隨著數(shù)據(jù)規(guī)模增加,基線(xiàn)模型性能顯著提升。而在不同規(guī)模的數(shù)據(jù)中,后兩種方法對(duì)比基線(xiàn)均有一些優(yōu)勢(shì),但是差距卻隨著數(shù)據(jù)規(guī)模增加而減少。這也符合我們的認(rèn)知,更大的數(shù)據(jù)規(guī)模往往會(huì)緩解過(guò)擬合的問(wèn)題,因此魯棒性訓(xùn)練帶來(lái)的提升也隨之減小。
參考文獻(xiàn)
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.
[3] Tiedemann J , Scherrer Y . Neural Machine Translation with Extended Context[C]// Proceedings of the Third Workshop on Discourse in Machine Translation. 2017.
[4] Jean S , Lauly S , Firat O , et al. Does Neural Machine Translation Benefit from Larger Context?[J]. 2017.
[5] Voita E , Serdyukov P , Sennrich R , et al. Context-Aware Neural Machine Translation Learns Anaphora Resolution[J]. 2018.
[6] Zhang J , Luan H , Sun M , et al. Improving the Transformer Translation Model with Document-Level Context[J]. 2018.
[7] Miculicich L , Ram D , Pappas N , et al. Document-Level Neural Machine Translation with Hierarchical Attention Networks[J]. 2018.
[8] Maruf S , Martins, André F. T, Haffari G . Selective Attention for Context-aware Neural Machine Translation[J]. 2019.
作者及團(tuán)隊(duì)介紹
李北,東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室 2020級(jí)博士生。研究方向:神經(jīng)機(jī)器翻譯、深層網(wǎng)絡(luò)建模,篇章級(jí)翻譯,解碼加速等,在 ACL、WMT、NLPCC、CCMT、中文信息學(xué)報(bào)等會(huì)議、雜志發(fā)表學(xué)術(shù)論文若干。??
研究團(tuán)隊(duì)為小牛翻譯,核心成員來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室,由姚天順教授創(chuàng)建于 1980 年,現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo),長(zhǎng)期從事計(jì)算語(yǔ)言學(xué)的相關(guān)研究工作,主要包括機(jī)器翻譯、語(yǔ)言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用,目前支持 304種語(yǔ)言互譯,通過(guò)小牛翻譯開(kāi)放平臺(tái)(https://niutrans.com/)讓機(jī)器翻譯技術(shù)賦能全球企業(yè)。
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的ACL 2020 | 多编码器是否能够捕获篇章级信息?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 年底离职率高的5大原因 很多人都是为了辞
- 下一篇: 开个小超市要投资多少钱 要结合当地的情况