无监督领域迁移及文本表示学习的相关进展
?作者|邴立東、何瑞丹、張琰、李俊濤、葉海
單位|阿里巴巴達摩院、新加坡國立大學等
摘要
隨著基于 transformer 的預訓練語言模型的廣泛應用,多種自然語言處理任務在近一兩年來都取得了顯著突破。然而,高質量的模型仍然很大程度上依賴于充足的下游任務訓練數據,當面對新的領域、問題場景時,預訓練模型的效果仍然有待提高。
在現實應用場景中,很多領域及語言的高質量標注數據十分稀缺且昂貴,因此,如何讓模型在低資源的場景下更高效地學習是一個 NLP 社群非常關注的問題。
本文總結了我們最近在低資源 NLP 上的三個工作,分別被 IJCAI 2020 和 EMNLP 2020 高分錄用。這三個工作重點探索了兩個方向, 第一個方向是文本粒度的無監督領域遷移(下文介紹的第一個和第二個工作), 我們提出了兩種從不同角度出發的領域遷移模型。第二個方向是無監督文本表示,我們提出了一種基于 BERT 的無監督方式來學習句子向量,使之不受數據標注和領域的限制。
本文介紹的工作來自于阿里巴巴達摩院新加坡 NLP 團隊,其中前兩篇是同新加坡國立大學 Prof Ng Hwee Tou(ACL Fellow)的 AIR 合作項目產出。本文由達摩院邴立東、何瑞丹、張琰,蘇州大學李俊濤,新加坡國立大學葉海共同整理而成。由 PaperWeekly 編輯進行了校對和格式調整。
?
無監督領域遷移
2.1 IJCAI 2020
論文標題:
Unsupervised Domain Adaptation of a Pretrained Cross-lingual Language Model
論文鏈接:
https://www.ijcai.org/Proceedings/2020/0508.pdf
論文分數:
5, 6, 4, 5, 5, 滿分為6分
2.1.1 問題設置
本篇論文考慮跨語言跨領域遷移,其設置是利用源語言和源領域的有標簽訓練數據集 來訓練一個有監督模型,在源語言的無標簽數據集 的幫助下遷移到目標語言和目標領域,并在測試數據集 上進行效果驗證。鑒于我們沒有使用目標語言和目標領域的有標簽數據集,該設置可以被認為是一種無監督的領域遷移形式。
2.1.2 模型架構
本論文的總體思路是將預訓練模型輸出的特征進行分解,分別得到領域共享 (domain-invariant)特征和領域特有(domain-specific)特征。我們發現,相較于直接使用預訓練模型輸出的特征,在分解后的特征上訓練的文本分類器具有更強的領域遷移能力。
為了不破壞預訓練模型的泛化能力,我們采用了無監督的設置和輕量級的遷移模塊設計。如上圖所示,我們提出的模型包括三個組成部分:
一個預訓練好的多語言編碼模塊(XLMR),主要用于將輸入的文本編碼成多語言共享空間(language-invariant)的表示;
一個非監督的特征分解模塊 – unsupervised feature decomposition (UFD),用于從多語言共享表示空間(language-invariant)抽取領域共享(domain-invariant)和領域特有(domain-specific)的特征;
任務特有的分類器, 在這里我們使用簡單的 softmax 分類器。
2.1.3 特征分解
整個模型的核心單元是特征分解模塊(UFD),用于分別抽取領域共享和領域特有特征。具體地,該模塊包含一個領域共享特征提取器 (上圖左)和一個領域特有特征提取器 (上圖右)。
的作用是從預訓練模型輸出的特征中提取到領域共享(domain-invariant)的特征。我們提出通過最大化 輸入和輸出的互信息(mutual information (MI))這一自學習方式來訓練 的參數,其損失函數 如下,這里我們用到了 Jensen-Shannon MI estimator 來估算互信息 [1]?:
當 在多個領域數據上訓練時,最大化其輸入輸出的互信息可以使 提取到這些領域上共有的特征。為了促進領域共享特征的學習,我們還額外引入了另一個互信息極大化的訓練損失信號 – 最大化 中間層和輸出層的互信息,其損失函數 如下:
的作用是從預訓練模型輸出的特征中提取到領域特有(domain-specific)的特征。我們提出通過極小化 和 輸出之間的互信息這一自學習方式來訓練 ,通過極小化互信息, 抽取到的是完全獨立于 的特征。由于 抽取的是領域共享特征, 抽取的可以被視為領域特有的特征。其損失函數如下:
因此整個 UDF 模塊的訓練目標為:
?
2.1.4 模型訓練
整個訓練過程分為兩步。我們首先用源語言多個領域上的無標注數據訓練 UDF。待 UDF 訓練完畢后,我們固定其參數,在源語言源領域標注樣本上訓練最上層的分類器(注:預訓練模型 XLMR 的參數在整個過程中是凍結的)。
2.1.5 主要實驗結果
我們在文本情感分類任務上進行了實驗。在實驗中,我們首先使用了源語言(英語)的無標注數據(unlabeled data)[3],包括三個不同的目標領域,即 Book、Dvd、Music。該數據集用來訓練 UDF,其具體的統計信息如上表所示。
除了無標注數據以外,我們還引入了標注數據集。該數據集 [2] 涉及到 4 個不同的語言,其中英語作為高資源的源語言,法語,德語,日語作為目標語言。每個語言包含三個不同的領域,即 Book、Dvd、Music。在每個源語言和源領域有 2000 條帶標簽的訓練樣本,每個目標語言和目標領域有 2000 條帶標簽的測試樣本。
上表給出了各個模型的對比實驗結果(accuracy),從中我們可以看到 XLM 是一個非常強的基礎模型,在最近提出的非預訓練模型 MAN-MOE-D 上取得了明顯的效果提升(法語和日語)。我們還觀察到預訓練的領域語言模型 DLM 遠遠弱于 XLM,這說明以語言模型為基礎的表示學習手段對訓練數據量級的要求很高。
此外,本文提出的特征抽取模塊(UFD)極大地提升原有大規模預訓練語言模型的效果。由于該模型和設置只使用了高資源源語言的少量無標注數據,因此不會犧牲大規模預訓練模型的泛化能力。
上表進一步給出了模型消融實驗的結果和源語言無標注數據的數量對最終模型效果的影響(accuracy)。
比較有意思的結果是,只利用互信息極大化訓練目標函數,Max 模型并沒有像 CV 領域一樣促進預訓練模型和下游任務的融合。只有在互信息極大化和互信息極小化損失函數共同作用下,預訓練模型的表示才能和具體領域的任務進行更好的結合。
通過分析源語言無標注數據的量級對領域遷移效果的影響,我們發現 3-6K 無監督樣本已經可以非常有效地提升預訓練模型在特定領域任務上的表現。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ??
2.2 EMNLP 2020
論文標題:
Feature Adaptation of Pre-Trained Language Models?across Languages and Domains with Robust Self-training
論文鏈接:
https://arxiv.org/abs/2009.11538
論文分數:
4.5, 4, 4
?
2.2.1 問題設置
本篇論文的問題設置是典型的無監督領域遷移。給定源領域的標注數據 和目標領域無標注數據 ,訓練一個模型,測試其在目標領域數據集 上的效果。我們依然專注文本分類的問題,而且也同時考慮跨領域和跨語言的設定。為了做到跨語言,同樣地,我們采用了多語言預訓練模型(XLMR)作為下層的特征編碼器。
?
2.2.2 ?模型架構
自訓練 (self-training) 是領域適應場景中常見的一種方法。這種方法大多以bootstrapping 的方式對目標領域無標注樣本進行標注得到偽標簽(pseudo labels),然后將高確定性的樣本加入訓練集用于下一輪模型學習。
雖然自訓練在一些情況下很有效,但是此方法極易受到噪聲的影響。主要問題是,在源領域標注數據上訓練后的編碼器由于其參數只針對源領域進行了優化,其對目標領域編碼后得到的特征可能變得不可識別(non-discriminative)。分類器在這樣的特征上預測的偽標簽是非常不準確的,進一步給下一輪的自訓練帶去了諸多噪音。
我們提出的方法基于自訓練,為了減少噪聲對算法的影響,提高算法的魯棒性,我們提出了 CFd ?(class-aware feature self-distillation) 算法,通過在目標領域學習可識別(discriminative)特征來提高偽標簽的準確度,緩解偽標簽帶來的噪聲問題。
上圖展示了我們模型的網絡架構,其自下而上分為預訓練語言模型(pretrained language model, PrLM for short),用于對輸入文本進行初步編碼;編碼器又叫特征映射器(feature adaptation module, FAM for short),用于將預訓練模型輸出的特征映射到低維空間;以及分類器(classifier)。
由于預訓練模型不同層的特征具有的遷移能力不同 [6,7],為了能夠達到更好的遷移效果,我們把多層的特征融合到一起。在 FAM 中,我們通過注意力機制來學習各層特征的權重,然后將乘上權重后的特征相加,作為 FAM 的輸出。
?
2.2.3 自訓練算法
自訓練是整體算法的基礎。一開始訓練集只包含源領域的所有標注數據,在每輪訓練后,模型會對所有目標領域的無標簽樣本進行預測,生成偽標簽,然后選擇部分目標領域的樣本進入訓練集用于下一輪模型訓練。
我們首先用熵損失(entropy loss)對所有無標簽樣本排序,熵損失越小,排序越靠前,代表分類器對此樣本的偽標簽確定性越高。然后將所有樣本根據其偽標簽分類,平均地從每類選擇熵損失最小的 K 個樣本。
?
2.2.4 CFd算法
CFd 是本篇論文的主要貢獻。其主要通過兩個部分來學習目標領域可識別特征。第一部分是特征自蒸餾算法,第二部分是學習標簽的聚類信息。
?
特征自蒸餾:當模型僅通過有監督的方式在源領域數據上學習時,經 FAM 輸出的目標領域樣本特征可能變得不可識別(non-discriminative)。
由于預訓練模型自身就能生成優異的可識別特征(訓練過程中預訓練模型參數固定),因此在對 FAM 進行有監督訓練時,我們可以通過構造自學習 (self-learning)任務的方式同時在目標領域無標注樣本上對其進行訓練,目的是使其輸出特征保留原預訓練模型特征的可識別性。
我們把這個過程叫做自蒸餾。上圖展示了自蒸餾的過程,這里的目標函數是最大化預訓練模型 average pooling 后的特征和 FAM 輸出的特征之間的互信息(mutual information)。其損失函數記為 。?
聚類信息:對于訓練集中來自源領域和目標領域帶有偽標簽的樣本, 我們首先將它們按照標簽分組,然后計算每組特征的中心點。接著我們構造一個損失函數 去最小化每個數據點到其所在組中心點的距離,這樣能近一步讓所有樣本的特征變得可以識別(discriminative)。
?
CFd 損失函數:因此 CFd 的損失函數為 。CFd 部分的損失函數是無監督的,其會被加到源領域上的有監督損失中一起引導模型進行訓練。
?
2.2.5 主要實驗結果
我們在文本情感分類任務上實驗了提出的算法,使用到了單語言(MonoAmazon [4])和多語言(MultiAmazon [5])兩個數據集。其中,單語言有 4 個 domain,包括 Book, Electronics, Beauty 以及 Music;多語言包括了英語、德語、法語和日語,每個語言包括了 Book, Dvd 和 Music 3 個 domain。
在單語言上,我們只考慮了 cross-domain 的設定,而在多語言上,我們不僅考慮了 cross-domain,而且考慮了 cross-language,cross-domain&cross-language。
?
以下是我們的實驗結果(accuracy),從實驗結果中我們可以發現,對比自訓練的基準模型 (p),我們的算法(p+CFd)無論在跨 domain 還是跨 language 的設定上都有穩定且顯著的效果提升。
同時我們也發現在固定 XLMR 參數的情況下, 用最上面 10 層特征的融合(xlmr-10)會大幅好于只用最后一層的特征(xlmr-1),甚至好于對 XLMR 進行 finetune (xlmr-tuning)。
???
無監督文本表示
論文標題:
An Unsupervised Sentence Embedding Method by Mutual Information Maximization
論文鏈接:
https://arxiv.org/abs/2009.12061
論文分數:
3, 4, 5
?
文本匹配技術如文本相似度、文本相關性計算,是很多應用系統中的核心 NLP 模塊,包括搜索引擎、智能問答、知識檢索、信息流推薦等。例如, 智能問答系統一般是從大量存儲的 Doc 中,選取與用戶輸入 Query 最匹配的那個 Doc。
盡管 BERT 已經在文本匹配任務如句子對回歸(Sentence Pair Regression)等取得了很好的效果,但 BERT 使用了交叉編碼器,這需要將兩個句子都輸入到 transformer 網絡對目標值進行預測,從而帶來大量計算。
例如,從 1 萬個句子中找相似對,就需要用 BERT 進行約 5 千萬次計算(單塊 v100 GPU 耗時約 65 小時)。為解決這個問題,可以先將所有句子映射到固定大小的向量空間,使得語義相似的句子位置相近,再用余弦距離對句子對回歸任務進行評估,這可以極大提高計算效率。
例如,可以將 BERT 的輸出層平均化或使用第一個 token([CLS])的 embedding 作為句向量,但這樣的句子表征效果很差,之前的研究發現此方法甚至不如用 GloVe 向量取平均來作為句子表示的效果好 [8]。
BERT 的改進版 Sentence-BERT(SBERT)[8] 使用二元和三元網絡結構來獲得包含語義的句向量。該向量可用于相似度計算,使尋找相似對的工作從 BERT 的 65 小時減少到 SBERT 的 5 秒,同時保證了 BERT 的正確率。
但是,此類改進依賴于高質量的監督學習數據。我們發現,當目標任務的標記數據極為匱乏,或測試集與訓練集的數據分布明顯不同時,SBERT 的性能會顯著下降。為此,我們提出了一種無監督訓練方式來學習句向量,使之能不受數據標注和數據領域的限制,并同時保證 BERT 在語義文本匹配等任務上的準確率和效率。
?
3.1 模型架構
受無監督圖片表示學習的啟發 [9], 本篇論文提出了一種思路類似的但可用于文本的自學習(self-learning)方法來進行無監督句子表示學習。如上圖所示,我們提出的模型主要包括三個組成部分:
1)一個預訓練好的編碼模塊(BERT)模型,主要用于將輸入的文本進行編碼;
2)多個卷積神經網絡 (CNN),用于提取不同的文本局部信息(n-gram)。
3)基于互信息最大化(Mutual Information (MI) maximization)的句向量學習模塊。
模型工作流程如下。句子輸入到 BERT 后被編碼,其輸出的 token embeddings 通過多個不同 kernel size 的一維卷積神經網絡 (CNN)得到多個 n-gram 特征。我們把每一個 n-gram 特征當成局部表征(Local representation), 將平均池化(Mean Pooling)后的局部表征稱為全局表征(Global representation)。
最后,我們用一個基于互信息的損失函數來學習最終的句向量。該損失函數的出發點是最大化句子的全局表征(句向量)與局部表征之間的平均互信息值,因為對于一個好的全局句向量,它與所對應的局部表征之間的 MI 應該是很高的, 相反,它與其他句子的局部表征間的 MI 應該是很低的。
在實現上,我們用鑒別器(Discriminator)接受所有的特征表示對(局部表征,全局表征),并對每一對輸入進行打分。在上圖這個例子中,對于句子 A 的句向量,我們將其與句子 A 的局部特征向量配對作為正樣本,和 B 的局部特征向量配對作為負樣本。
整個自學習任務的優化目標是最大化鑒別器對正樣本的打分以及最小化對負樣本的打分,以此來訓練編碼器(BERT+CNN)進行句子表征學習。這樣的任務類似? contrastive learning,可以鼓勵編碼器更好地捕捉句子的局部表征,并且更好地區分不同句子之間的表征。
3.2 主要實驗結果
為了方便,我們的模型命名為 IS-BERT。我們在不同的 STS(semantic textual similarity)數據集上進行了實驗。上面表 1 展示了 STS 基準數據集上的結果(spearman’s rank correlation)。
這組數據集的文本來自開放領域,所以在實驗中我們和 SBERT 一樣,在 SNLI 和 MultiNLI 數據集上進行訓練。注意 SBERT 學習用到了這兩個數據集的標簽信息,但 IS-BERT 只用到了文本信息(raw text)進行學習。
從表 1 中我們可以看到所有的有監督方法(SBERT, USE, InferSent)都優于其他的無監督模型。這很大程度上是因為 NLI 數據集和 STS 數據集比較相關,通過在 NLI 數據上進行有監督訓練得到句子表征信息比較適用于這組 STS 任務。
但看無監督模型,我們的 IS-BERT 模型遠遠強于其他的無監督學習方法,甚至在許多任務(5/7)上優于 InferSent 等監督訓練的模型。IS-BERT 雖然明顯弱于 USE 和? SBERT 這兩種有監督訓練的方法,但我們的模型不受數據標注的限制并且在部分任務上(STS13 and STS15)與有監督的學習方法效果相當。
表 2 展示了在模型在另一個 argument 相關的數據集上的效果(pearson correlation and spearman’s rank correlation)。這個數據集更 task-specific 且更有挑戰性。我們的實驗設置是所有模型都不能用 task-specific 的標注數據進行訓練,這是一個非常貼合現實的設置。
在這種情況下 SBERT 只能先在 NLI 上學習句子編碼,然后在這個數據集上測試。由于 NLI 和這個 argument 數據集語義差距很大, SBERT 在這種情況下的表現很差。我們提出的 IS-BERT 由于是無監督的,可以直接在 task-specific 的無標簽文本上進行訓練,固而在這種場景下表現顯著優于其他方法。
? ? ? ? ? ? ? ??
總結
如何在低資源場景下進行模型訓練是自然語言處理中最重要也是最有挑戰性的問題之一,其中包含諸多研究方向,本文呈現的工作僅就其中兩個方向進行了探索。就文本領域遷移,我們分別從特征分解和強化自訓練兩個不同角度提出了更高效的方法。
就文本表示,我們提出了基于預訓練模型的簡單高效的無監督方法。這兩個方向都有很大的進一步研究空間。針對領域遷移,我們后續會探索將文本粒度的方法拓展到其它如序列標注,seq2seq 一類的任務上。針對無監督文本表示,進一步探索其在跨語言場景中的潛力將是一個比較有意義的方向。
參考文獻
[1] Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Philip Bachman, Adam Trischler, and Yoshua Bengio. 2019. Learning deep representations by mutual information estimation and maximization. In ICLR.
[2] Peter Prettenhofer and Benno Stein. 2010. Cross-language text classification using structural corre- spondence learning. In ACL.
[3] Ruining He and Julian McAuley. 2016. Ups and downs: Modeling the visual evolution of fash- ion trends with one-class collaborative filtering. In WWW
[4] Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. 2018. Adaptive semi-supervised learning for cross-domain sentiment classification. In EMNLP.
[5] Peter Prettenhofer and Benno Stein. 2010. Cross-language text classification using structural corre- spondence learning. In ACL.
[6] Yaru Hao, Li Dong, Furu Wei, and Ke Xu. 2019.? Visualizing and understanding the effectiveness of BERT. In EMNLP-IJCNLP.
[7] Nelson F. Liu,?? Matt Gardner,?? Yonatan Belinkov, Matthew E. Peters, and Noah A. Smith. 2019b. ?Lin-
guistic knowledge and transferability of contextual representations. In NAACL-HLT.
[8] Nils Reimers and Iryna Gurevych. 2019. Sentence- BERT: Sentence embeddings using Siamese BERT- networks. In EMNLP-IJCNLP.?
[9] Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Philip Bachman, Adam Trischler, and Yoshua Bengio. 2019. Learning deep representations by mutual information estimation and maximization. In ICLR.
[10] Amita Misra, Brian Ecker, and Marilyn Walker. 2016. Measuring the similarity of sentential arguments in dialogue. In Proc. of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue.? ??
關于作者
邴立東,現任阿里巴巴達摩院?NLP Lab 新加坡團隊負責人,香港中文大學博士,卡內基梅隆大學博士后,曾任騰訊人工智能實驗室高級研究員。從事自然語言處理領域的研發工作近 10 年,目前研究興趣集中于低資源NLP問題、情感分析、文本生成、表示學習、論辯挖掘等。近年來在頂級人工智能會議及期刊上,發表論文近 100 篇。以副主編、領域主席、高級程序委員等身份,多次參與頂級自然語言和機器學習期刊、會議的組織和審稿工作。其帶領的新加坡 NLP 團隊開發的多語言 NLP 技術,全面賦能 Lazada、Daraz 等國際化電商平臺,打造云上 NLP 能力的優勢項并助力阿里云出海業務拓展;東南亞語言翻譯能力賦能釘釘國際化和 Lazada 跨境電商。團隊同新加坡高校多名教授開展項目合作,并聯合培養近 10 名博士生。
何瑞丹,現任阿里巴巴達摩院 NLP Lab?新加坡團隊?Scientist,新加坡國立大學博士。目前研究興趣包括遷移學習,無監督/半監督學習,低資源 NLP 等。
張琰, 新加坡國立大學博士后,博士畢業于新加坡科技與設計大學, 研究方向為圖與文本表示學習。
李俊濤,蘇州大學特聘副教授,2020 年從北京大學王選計算機研究所&大數據中心獲得博士學位。研究方向為自然語言生成,對話系統,跨語言&領域遷移。截止到 2020 年,在 ACL/EMNLP/AAAI/IJCAI 上發表 10 余篇論文,兩次 CCF A 會議 tutorial 報告。擔任 ACL/EMNLP/AAAI/IJCAI/CL/TKDE 等會議和期刊審稿人。
葉海,新加坡國立大學研究助理,目前研究興趣:CQA、低資源 NLP 等。
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的无监督领域迁移及文本表示学习的相关进展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 普通轮式和全方位式移动机器人的区别是什么
- 下一篇: 基于华为 HarmonyOS NEXT,