微软、UIUC韩家炜组联合出品:少样本NER最新综述
?PaperWeekly 原創 ·?作者 | 蔡杰
單位 | 北京大學碩士生
研究方向 | QA
當前的機器學習和深度學習模型都需要大量的標注數據來進行訓練,以達到一個較好的效果。但是在帶 label 的訓練樣本很少或很難獲取的情況下,直接訓練模型通常不會有很好的泛化能力,反而容易造成模型對樣本過擬合以及對目標任務欠擬合。針對這幾個問題少樣本學習(few shot learning)應運而生,少樣本學習指的是在 NLP 任務中只使用少量的標記樣本訓練模型,使得模型可以有效的學習小樣本中的信息。本文針對 NER 領域中的 few shot learning 做了一個綜述。
論文標題:
Few-Shot Named Entity Recognition: A Comprehensive Study
論文鏈接:
https://arxiv.org/pdf/2012.14978.pdf
Background on Few-shot NER
命名實體識別任務可以看做是一個序列標注任務,輸入輸出分別是如下形式:
其中輸入 X 是長度為?T?個 tokens 的文本,輸出 Y 是長度為?T?個 tokens 的標簽。整個帶有標簽的訓練集合可以表示為如下形式:
其中?N?表示的是該集合中樣本的個數。
Pipeline Method:在 NER 領域中常用的基于預訓練模型的 Pipeline 方法是將預訓練模型作為特征提取器,在預訓練模型之后直接添加一層 Linear 和 Softmax,訓練的時候調整 Linear 的參數,預訓練模型的參數可以選擇訓練也可以選擇保持不變。具體模型圖如下:
三個問題
可能有人會問為什么要將 Few-shot 應用到 NER 中,畢竟 NER 可以通過一些遠程監督的方法獲取到 NER 標注樣本,但是遠程監督方法獲取到的樣本會存在很多噪聲,其次無法保證遠程監督標注的領域完全適應以及詞表的完整性,也就是會有實體 OOV 的問題。因此將 Few-shot 方法應用 NER 也是一個很值得研究的方向。
了解了背景和基本做法之后,本文提出了將 few shot learning 應用于 NER 領域中需要面臨的三個核心問題:
1. How to adapt meta-learning such as prototype-based methods for few-shot NER?
如何將元學習方法作為 prototype-based 的方法應用到 few-shot NER 領域中?
2. How to leverage freely-available web data as noisy supervised pre-training data?
如何利用大量免費可用的網頁數據構造出 noisy supervised 方法中的預訓練數據?
3. How to leverage unlabeled in-domain sentences in a semi-supervised manner?
如何在半監督的范式中利用好 in-domain 的無標注數據?
基于以上三個核心問題,作者整體分了三個方向來介紹當前 few shot learning 在 NER 領域的應用:
Prototype Methods
這里提到的 prototype methods 是基于 meta-learning 方法的 few-shot 方法。meta-learning 的核心思想就是讓模型在多個具有大量標注數據的任務上學習,從而具備泛化到某個只有少量標注數據的任務上。
首先定義兩個集合 S 和 Q:
Support set(M 個 entity types, 每個 entity types 有 K/K' 個 sentence)
prototypes:在與單個 token 相同的表示空間中將 entity type 表示為向量。(也就是把 label 映射為對應 的向量,向量的構造方法是將所有屬于該類別的 token 向量求和平均。)
對于一個新輸入的 token 來說,將其輸入模型后得到的輸出和所有 prototypes 進行距離計算:
訓練過程中 support set 中的 entity type 會通過采樣不斷迭代變化,infer 的時候則是對新的 token 使用最近鄰(NN)算法計算最接近的那個類別。
[1] 在 few shot 的 NER 上探索了原型網絡(prototypical network),但是 [1] 只使用了 RNN 作為主干模型,沒有利用基于 Transformer 的體系結構的模型來對文本進行表示。因此可能該方法可能并沒有將原型網絡的效果發揮出來。
本文的工作類似于 [2] [3],他們都使用 KNN 來分配實體類型,但不同之處在于他們是將最近的 K 個鄰居與每個個體 token 進行比較,而本文則是通過原型(prototype)來進行比較。因此,當給定示例的數量增加時,本文的方法更 scalable。
Noisy Supervised Pretraining
我們都知道通過預訓練模型可以用于獲取每個句子甚至每個 token 的 embedding 表示。但這些表示有個特點就是他們對于所有下游任務都是不可知的,也就是說預訓練模型在預訓練過程中對待每個 token 都是一致的。但是很多下游任務中,對某些特定的 token 需要有特別的處理。比如在 NER 任務中,對于“Mr. Bush asked Congress to raise to $ 6 billion”這句話,模型需要能夠辨認出“Congress”是一個 entity,而“to”只是一個普通的 token。
那如何才能讓預訓練模型具備這種識別實體的能力呢?作者提出了一種利用大規模帶噪聲的網頁數據(WiNER)來進行噪聲監督預訓練(noisy supervised pre-training)的方法。在 WiNER 中,包含著相較于下游任務更為豐富的實體類型,比如“Musician”和“Artist”通常表示的是兩種不同的實體類型,而在常見的 NER 評測標準中二者都被歸類為“Person”類型。
因此作者認為使用大規模帶噪聲的數據預訓練模型時,模型既可以學到區分實體的能力,又不會學到和下游任務完全一致的信息導致模型過擬合。
Self-Training
Self-Training 是一種半監督學習方法,利用到了大量無標注數據和少量標注數據。
1)先通過標注數據學習一個 teacher 模型;
2)通過 teacher 模型給無標注數據進行標注 soft 標簽;
3)使用標注數據和具有 soft 標簽的數據訓練 student 模型;
以上訓練過程可以以迭代的方式進行,從而提升模型效果:
Expriments
之后本文在以上提到的幾種方法上做了像相應的實驗:
backbone network:pre-trained base RoBERTa
dataset:
Results
LC :linear classifier fine-tuning(fine-tuning 整個模型)
P :prototype-based method
NSP :noisy supervised pre-training
ST:self-training
通過比較第 1 列和第 2 列(或比較第 3 列和第 3 列),可以看出在大多數數據集中(特別是在 5-shot 的設置下)噪聲監督預訓練取得了最好的結果,這表明 NSP 任務賦予了模型更強的提取 NER 相關特征的能力。
第 1 列和第 3 列之間的比較的是 LC 和基于原型的方法之間的差別:雖然基于原型的方法在 5-shot 中比 LC 在 CoNLL、WikiGold、WNUT17 和 Mul-tiwoz 上獲得了更好的性能,但在其他數據集和平均統計數據上,它不如 LC,說明基于原型的方法只有在標記數據非常有限的情況下才能產生更好的結果。
當比較第 5 列和第 1 列(或比較第 6 列和第 2 列)時,可以看到使用 Self-Training 始終比僅使用標記數據進行微調更有效,這表明 ST 是能夠有效利用域內未標記數據的方法。
第 6 列則展示了大多數情況下 F1 的最高分數,表明本文提出的三個方案是相互補充的,并且可以結合起來在實踐中產生最佳結果。
Conclusion
本文總結了目前 few shot NER 任務中所用到的相關方法,主要包括三種基本方法及其組合:基于原型的方法(Prototype Methods),有噪聲監督的預訓練(Noisy Supervised Pretraining)和自訓練(Self-Training)。本文在 10 個不同設置的公共數據集上對它們進行了深入比較。所有這些方法都可以提高 PLM 的泛化能力,能夠從只有幾個 token 的 example 中學習,其中有監督的預訓練和自訓練尤其有效。
參考文獻
[1] Alexander Fritzler, V. Logacheva, and M. Kretov. 2019. Few-shot classification in named entity recognition task. Proceedings of the 34th ACM/SIGAPP Sympo- sium on Applied Computing.?
[2] M. Ziyadi, Yuting Sun, A. Goswami, Jade Huang, and W. Chen. 2020. Example-based named entity recog- nition. ArXiv, abs/2008.10570.?
[3] Sam Wiseman and K. Stratos. 2019. Label-agnostic sequence labeling by copying nearest neighbors. ArXiv, abs/1906.04225.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的微软、UIUC韩家炜组联合出品:少样本NER最新综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2003年生的2027年可以去当兵吗?
- 下一篇: 直播 | 复旦大学许燚:少量标注样本场景