當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 | 多编码器是否能够捕获篇章级信息？

發(fā)布時(shí)間：2024/10/8 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2020 | 多编码器是否能够捕获篇章级信息？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜李北

單位｜小牛翻譯?/?東北大學(xué)NLP實(shí)驗(yàn)室

研究方向｜神經(jīng)機(jī)器翻譯、深層網(wǎng)絡(luò)建等

本文驗(yàn)證了多編碼器在篇章級(jí)翻譯任務(wù)上性能的提升并不是來(lái)源于上下文編碼器對(duì)篇章級(jí)語(yǔ)義信息的編碼，其更像是一個(gè)噪聲生成器，為模型的訓(xùn)練提供了額外的訓(xùn)練信號(hào)。

其次，在解碼階段屏蔽上下文編碼器對(duì) BLEU 并沒(méi)有影響，進(jìn)一步證明了上下文編碼器在訓(xùn)練中類(lèi)似于 dropout 作用。此外，本文提出一種基于高斯噪聲的魯棒性訓(xùn)練手段，可以達(dá)到和多編碼器可比的性能，并在不同規(guī)模數(shù)據(jù)集上驗(yàn)證了方法的有效性。本文已被 ACL 2020 收錄。

論文標(biāo)題：Does Multi-Encoder Help? A Case Study on Context-Aware Neural Machine Translation

論文來(lái)源：ACL 2020

論文鏈接：https://arxiv.org/abs/2005.03393

代碼鏈接：https://github.com/libeineu/Context-Aware

篇章級(jí)翻譯模型

近年來(lái)，神經(jīng)機(jī)器翻譯（Neural Machine Translation）已經(jīng)取得了突破性的進(jìn)展，尤其是目前基于自注意力機(jī)制的 Transformer [1] 模型掀起學(xué)術(shù)界的廣泛關(guān)注，同時(shí)在工業(yè)界中也被廣泛應(yīng)用。

目前神經(jīng)機(jī)器翻譯模型通常采用編碼器-解碼器（Encoder-Decoder）[2] 的框架來(lái)完成源語(yǔ)言序列到目標(biāo)語(yǔ)言序列的轉(zhuǎn)換。其中，編碼器對(duì)源語(yǔ)序列進(jìn)行編碼，得到稠密的實(shí)數(shù)向量表示，進(jìn)而提取源語(yǔ)序列中的語(yǔ)義信息。之后解碼器再利用該表示逐詞地生成目標(biāo)語(yǔ)序列。

目前的主流神經(jīng)機(jī)器翻譯模型都是基于句子級(jí)的，模型學(xué)習(xí)的是不同源語(yǔ)句子與目標(biāo)語(yǔ)句子之間的映射關(guān)系，但是忽略了一個(gè)篇章中句子之間的上下文信息。然而在一些篇章翻譯的場(chǎng)景中，句子間的上下文信息是不可或缺的。

比如在出現(xiàn)一些指代或者一詞多義的情況中，在當(dāng)前句子無(wú)法做出區(qū)分時(shí)，往往需要根據(jù)句子間的上下文來(lái)確定其正確形式或詞義，從而生成更連貫、一致的譯文。這種編碼上下文信息的建模方法通常被稱(chēng)為篇章級(jí)翻譯（Context-Aware Machine Translation）。

如何高效地對(duì)額外的篇章級(jí)信息進(jìn)行建模一直以來(lái)廣受關(guān)注。目前有兩種常見(jiàn)的做法來(lái)編碼篇章信息：第一種是將當(dāng)前句子的上下文與其進(jìn)行拼接，得到一個(gè)多句的輸入序列，將該序列作為輸入送入模型，同時(shí)不需要修改模型結(jié)構(gòu)；另外一種是采用多編碼器（Multi-encoder）結(jié)構(gòu)，通過(guò)額外的編碼器來(lái)對(duì)上下文信息進(jìn)行特征提取，之后與源語(yǔ)信息進(jìn)行融合后用于目標(biāo)語(yǔ)生成。

對(duì)比單編碼器結(jié)構(gòu)，多編碼器可以更有效地對(duì)源語(yǔ)的上下文信息進(jìn)行建模，其翻譯性能更加顯著。一些研究工作已經(jīng)通過(guò)機(jī)器翻譯的自動(dòng)評(píng)價(jià)指標(biāo) BLEU 和一些專(zhuān)用測(cè)試指標(biāo)來(lái)證明其方法的有效性。然而，由于篇章級(jí)的平行雙語(yǔ)語(yǔ)料資源比較稀缺，常用的數(shù)據(jù)集規(guī)模比較小，其翻譯性能也存在較大的波動(dòng)。

例如，在小數(shù)據(jù)集上（IWSLT 等）合理地調(diào)整 dropout 的閾值能夠明顯的改善翻譯質(zhì)量。同時(shí)研究者發(fā)現(xiàn)在一些任務(wù)中，BLEU 值的提升不僅僅來(lái)自于多編碼器提供的額外源語(yǔ)相關(guān)信息，還來(lái)自于魯棒性訓(xùn)練，額外的編碼器可以看作一個(gè)噪音生成器來(lái)提供更多的訓(xùn)練信號(hào)。因此，研究者通過(guò)在一些篇章級(jí)翻譯任務(wù)上對(duì)多編碼器結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)，進(jìn)一步證實(shí)這個(gè)觀點(diǎn)。

模型結(jié)構(gòu)

篇章級(jí)翻譯模型通過(guò)在翻譯過(guò)程中結(jié)合句子間的上下文信息來(lái)獲得更好的翻譯結(jié)果，目前，這種端到端的模型大體可以分為兩類(lèi)：單編碼器模型（Single-encoder）[3] 和多編碼器模型 [4] [5] [6]。單編碼器模型做法比較簡(jiǎn)單，不改變模型結(jié)構(gòu)，通過(guò)將模型輸入進(jìn)行拼接的方式來(lái)捕捉句子間上下文信息。

多編碼器模型通過(guò)額外的編碼器結(jié)構(gòu)來(lái)對(duì)上下文信息進(jìn)行表示，然后結(jié)合到整體翻譯模型中。此外，一些研究人員通過(guò)共享編碼器或者采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)上下文表示進(jìn)行抽取 [7] [8]，也可以近似看作是多編碼器結(jié)構(gòu)。

在多編碼器結(jié)構(gòu)中，根據(jù)解碼端對(duì)源語(yǔ)表示與上下文表示的集成方式，可以大致分為內(nèi)部集成（Inside Integration）和外部集成（Outside Integration）兩類(lèi)。其中，外部集成 [5] [7] [8] 是指將源語(yǔ)編碼器和上下文編碼器的編碼結(jié)果在送入解碼器之前進(jìn)行融合，得到一個(gè)統(tǒng)一的表示，具體融合方法可以采用注意力操作和門(mén)控的方式。

與之相反，內(nèi)部集成的方法是指將兩個(gè)編碼結(jié)果分開(kāi)獨(dú)立地送入解碼器結(jié)構(gòu)中，可以采取串行計(jì)算 [6] 與并行計(jì)算 [4] 兩種融合方式。下圖展示了外部集成和內(nèi)部集成（并行）的模型結(jié)構(gòu)：

▲ 圖：多編碼器結(jié)構(gòu)的兩類(lèi)集成方式

訓(xùn)練方式

由于篇章級(jí)雙語(yǔ)數(shù)據(jù)相對(duì)較少，無(wú)法滿(mǎn)足多編碼器訓(xùn)練所需，因此需要采取一些方法來(lái)緩解數(shù)據(jù)稀缺的問(wèn)題。常見(jiàn)的方法有兩種：一種是參數(shù)共享 [5] [7]，通過(guò)共享上下文編碼器和源語(yǔ)端編碼器的部分或全部參數(shù)，來(lái)減輕模型訓(xùn)練負(fù)擔(dān)；

另一種是兩階段訓(xùn)練 [6] [8]，首先使用雙語(yǔ)數(shù)據(jù)對(duì)句子級(jí)翻譯模型進(jìn)行預(yù)訓(xùn)練，然后在多編碼器模型訓(xùn)練時(shí)復(fù)用其參數(shù)，繼續(xù)訓(xùn)練剩余參數(shù)或全體參數(shù)。為了選取合適的基線(xiàn)，研究者首先對(duì)比了兩種訓(xùn)練策略，結(jié)果如下表所示：

▲ 表：不同訓(xùn)練策略的BLEU性能比

其中，多編碼器模型采用外部集成的方式；WS 為共享了上下文編碼器與源語(yǔ)端編碼器的前 n-1 層參數(shù)；TS 為采取兩階段訓(xùn)練方式，在句子級(jí)模型基礎(chǔ)上訓(xùn)練整體模型。可以看到，兩種策略都能取得顯著提升，同時(shí)兩階段訓(xùn)練的方式相比參數(shù)共享具有些許的優(yōu)勢(shì)。

其次，單層的上下文編碼器也能取得和 6 層可比的結(jié)果，這可能是由于訓(xùn)練數(shù)據(jù)有限，所以不需要太復(fù)雜的模型。因此，研究者在之后的實(shí)驗(yàn)中采用了單層上下文編碼器及兩階段訓(xùn)練的策略來(lái)訓(xùn)練多編碼器模型。

不同上下文輸入的對(duì)比

為了探究多編碼器結(jié)構(gòu)對(duì)最終翻譯性能的影響，研究者提出了三種不同的上下文來(lái)進(jìn)行對(duì)比實(shí)驗(yàn)：

真實(shí)上下文（Context）：當(dāng)前待翻譯句子的前一句。

隨機(jī)上下文（Random）：在詞典中隨機(jī)采樣構(gòu)造的偽上下文。

固定上下文（Fixed）：固定的一個(gè)句子。

此外，研究者在多個(gè)語(yǔ)種的翻譯任務(wù)上進(jìn)行實(shí)驗(yàn)，數(shù)據(jù)規(guī)模及實(shí)驗(yàn)結(jié)果如下表所示：

▲ 表：數(shù)據(jù)集規(guī)模

▲ 表：上下文對(duì)比實(shí)驗(yàn)結(jié)果

其中 Zh-En 和 Fr-En 的數(shù)據(jù)來(lái)自于 IWSLT 的評(píng)測(cè)數(shù)據(jù)，En-De 數(shù)據(jù)來(lái)自 WMT 評(píng)測(cè)數(shù)據(jù)，而 En-Ru 數(shù)據(jù)來(lái)自于 Opensubtile。上表展示了多個(gè)篇章級(jí)模型在接收不同輸入的條件下在上述 4 個(gè)數(shù)據(jù)集的翻譯性能。為了保證結(jié)論的嚴(yán)謹(jǐn)性，研究人員分別在 dropout 為 0.1 和 0.3 的條件下進(jìn)行實(shí)驗(yàn)。從表中可以觀測(cè)到如下幾個(gè)現(xiàn)象：

多編碼器模型對(duì)比單編碼器和句子級(jí)模型在 4 個(gè)數(shù)據(jù)集上有明顯的性能提升

改變 dropout 的大小可以有效地緩解小數(shù)據(jù)集上的過(guò)擬合問(wèn)題，顯著地提升模型的翻譯性能

內(nèi)部集成與外部集成的方法均帶來(lái)不小的 BLEU 值提升。然而隨著 dropout 值的增大，整體模型性能有了更大提升，但與句子級(jí)模型的差別變得更小。

隨機(jī)上下文和固定上下文并沒(méi)有提供真實(shí)的上下文信息，卻得到了與真實(shí)上下文相似的提升。這里進(jìn)一步驗(yàn)證了 BLEU 值的提升并不是來(lái)自于額外的上下文信息，而是類(lèi)似于引入了噪聲信號(hào)，起到了正則化的作用。

魯棒性訓(xùn)練

前文提到，多編碼器可能起到了噪聲產(chǎn)生器的作用，為模型提供更多訓(xùn)練信號(hào)。為了進(jìn)一步驗(yàn)證這種假設(shè)，研究者在推理的時(shí)候屏蔽了上下文編碼器生成的編碼表示，結(jié)果如下表所示：

▲ 表：在推理時(shí)屏蔽上下文信息

表中觀測(cè)到屏蔽上下文信息后，BLEU 值并沒(méi)有下降，在一些測(cè)試集上甚至?xí)杂刑嵘?#xff0c;進(jìn)一步確認(rèn)了 BLEU 的提升不僅來(lái)自于上下文信息，更像是一種噪聲生成器。簡(jiǎn)單來(lái)說(shuō)上下文編碼器得到表示作為一種噪聲對(duì)網(wǎng)絡(luò)的整體訓(xùn)練起到了正則化的作用。

此外，受啟發(fā)于外部集成的方式，研究者提出使用一個(gè)高斯分布來(lái)模擬上下文編碼器的作用，在源語(yǔ)編碼器表示基礎(chǔ)上直接添加一個(gè)高斯噪聲，用來(lái)探究上下文編碼器是否起到類(lèi)似的作用，結(jié)果如下表所示：

▲ 表：高斯噪音對(duì)比

可以看到，添加高斯噪音進(jìn)行訓(xùn)練可以進(jìn)一步提升模型的性能，甚至比多編碼器外部集成方法略好一些，然而二者結(jié)合在一起沒(méi)有帶來(lái)疊加的效果。這更說(shuō)明了多編碼器本質(zhì)上起到了類(lèi)似噪聲生成器的作用，噪聲的疊加并不能帶來(lái)明顯的增益。

更大規(guī)模的訓(xùn)練

由于篇章級(jí)雙語(yǔ)數(shù)據(jù)較為稀缺，上述大部分實(shí)驗(yàn)數(shù)據(jù)集相對(duì)較小。為了探究不同規(guī)模數(shù)據(jù)是否具有相同的現(xiàn)象，研究者使用 500k 至 5M 的中英雙語(yǔ)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，分別對(duì)比了句子級(jí)模型，隨機(jī)上下文和添加高斯噪聲三種方法的翻譯性能。結(jié)果如下圖所示：

▲ 圖：不同規(guī)模數(shù)據(jù)對(duì)比

隨著數(shù)據(jù)規(guī)模增加，基線(xiàn)模型性能顯著提升。而在不同規(guī)模的數(shù)據(jù)中，后兩種方法對(duì)比基線(xiàn)均有一些優(yōu)勢(shì)，但是差距卻隨著數(shù)據(jù)規(guī)模增加而減少。這也符合我們的認(rèn)知，更大的數(shù)據(jù)規(guī)模往往會(huì)緩解過(guò)擬合的問(wèn)題，因此魯棒性訓(xùn)練帶來(lái)的提升也隨之減小。

參考文獻(xiàn)

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[2] Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.

[3] Tiedemann J , Scherrer Y . Neural Machine Translation with Extended Context[C]// Proceedings of the Third Workshop on Discourse in Machine Translation. 2017.

[4] Jean S , Lauly S , Firat O , et al. Does Neural Machine Translation Benefit from Larger Context?[J]. 2017.

[5] Voita E , Serdyukov P , Sennrich R , et al. Context-Aware Neural Machine Translation Learns Anaphora Resolution[J]. 2018.

[6] Zhang J , Luan H , Sun M , et al. Improving the Transformer Translation Model with Document-Level Context[J]. 2018.

[7] Miculicich L , Ram D , Pappas N , et al. Document-Level Neural Machine Translation with Hierarchical Attention Networks[J]. 2018.

[8] Maruf S , Martins, André F. T, Haffari G . Selective Attention for Context-aware Neural Machine Translation[J]. 2019.

作者及團(tuán)隊(duì)介紹

李北，東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室 2020級(jí)博士生。研究方向：神經(jīng)機(jī)器翻譯、深層網(wǎng)絡(luò)建模，篇章級(jí)翻譯，解碼加速等，在 ACL、WMT、NLPCC、CCMT、中文信息學(xué)報(bào)等會(huì)議、雜志發(fā)表學(xué)術(shù)論文若干。??

研究團(tuán)隊(duì)為小牛翻譯，核心成員來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室，由姚天順教授創(chuàng)建于 1980 年，現(xiàn)由朱靖波教授、肖桐博士領(lǐng)導(dǎo)，長(zhǎng)期從事計(jì)算語(yǔ)言學(xué)的相關(guān)研究工作，主要包括機(jī)器翻譯、語(yǔ)言分析、文本挖掘等。團(tuán)隊(duì)研發(fā)的小牛翻譯系統(tǒng)已經(jīng)得到廣泛應(yīng)用，目前支持 304種語(yǔ)言互譯，通過(guò)小牛翻譯開(kāi)放平臺(tái)（https://niutrans.com/）讓機(jī)器翻譯技術(shù)賦能全球企業(yè)。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ACL 2020 | 多编码器是否能够捕获篇章级信息？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：年底离职率高的5大原因很多人都是为了辞
下一篇：开个小超市要投资多少钱要结合当地的情况