Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning阅读笔记
論文地址:Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning (aclanthology.org)
GitHub:rainarch/DSNER: Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning (github.com)
先翻譯再說理解
Abstract :
在新領域中,中文命名實體識別(NER)的一個瓶頸問題是缺乏注釋的數據。一個解決方案是利用已被廣泛用于關系提取的遠距離監督方法來自動填充注釋的訓練數據,而無需人力成本。
這里的遠距離監督假設是,如果文本中的一個字符串被包含在預定義的實體字典中,那么這個字符串可能是一個實體。然而,這種自動生成的數據存在兩個主要問題:不完整的注釋和噪聲。
這影響了NER模型的性能。
在本文中,我們提出了一種新的方法,可以部分地解決上述 在本文中,我們提出了一種新的方法,可以部分解決上述遠距離監督NER的問題。
在我們的方法中,為了處理不完整的問題,我們應用了部分注釋學習來減少未知的字符標簽的影響。
對于嘈雜的注釋,我們設計了一個基于強化學習的實例選擇器,以從自動生成的注釋中區分出正面句子。
在實驗中,我們創建了兩個數據集,在遠距離監督的幫助下進行兩個領域的中文命名實體識別。
實驗結果表明,所提出的方法在這兩個數據集上獲得了比對比系統更好的性能。在這兩個數據集上獲得了比對比系統更好的性能。
1 Introduction
近年來,深度學習方法在命名實體識別(NER)任務中取得了很大的進展(Collobert等人,2011;Chiu和Nichols,2015)。標準化的方法是使用BiLSTMs進行編碼,然后應用CRF進行聯合標簽解碼(Huang等人,2015;Lample等人,2016)。 al., 2016)。
此外,BiLSTMs和CNNs被用來對字符或詞級表征進行建模(Ma和Hovy,2016)。
以前關于NER的大多數研究都集中在某一組預定義的NER類型上,比如組織。地點、人、日期等,其中提供一定量的標記數據來訓練模型。
然而,不同的應用需要特定的實體類型,如電子商務領域的 "品牌 "和 "產品",以及金融業的 "公司"。
考慮到人工標注的高成本,為每個新的NER類型標注大量的標注數據可能是不可行的,但在某些時候可以提供小規模的數據。
作為一種替代方案,遠距離監督可以自動生成大規模的標簽數據用于新類型的NER,而不需要人力成本。遠方監督的想法已經廣泛用于關系提取任務中。(Mintz等人,2009;Riedel等人,2010;Zeng等人,2015)。
對于關系提取,首先我們 有一個知識庫。
如果兩個實體e1和e2根據知識庫有關系,那么我們填充這些知識,并假設e1和e2之間的關系在包含這兩個實體的句子中是r。
這兩個實體。
通過這種方式,我們可以產生大量的標記數據用于模型訓練。同樣,在我們的任務中,我們首先獲得一個包含新類型實體列表的字典。
然后,我們假設句子中提到的每一個實體都是相應類型的正面實例,從而自動生成大規模的標記數據。根據字典,假設句子中提到的每個實體都是相應類型的正面實例。
圖1(a)顯示了一個被視為正面實例的例子,兩個 "產品 "名稱被遠距離監督方法正確匹配。
然而,在實踐中,我們發現自動標注的NER數據存在兩個問題,即不完全標注和噪聲標注,這對NER系統的性能有負面影響。
不完整的注釋問題意味著不是每個實體都以遠程監督的方式被標記。
例如,"皮鞋 "被包含在字典中,而 "皮帶 "卻沒有。因此,在圖1(b)中,"皮鞋(皮鞋)"被注釋為PDT,而 "皮帶(皮帶)"卻沒有。噪聲注解問題指的是匹配的實體與實體定義不一致,如圖1(c)中,"工作鞋(work shoe)"是一個產品,但只有前兩個字符 "工作服(fatigue clothes)"被詞典匹配,因為 "工作鞋(work shoe)"不在詞典中。
顯然,如果我們直接使用字典中的 "工作鞋",那么在模型訓練過程中,這種錯誤標記的例子肯定會提供錯誤的監督。如果我們直接使用自動生成的數據,它肯定會在模型訓練中提供錯誤的監督。
在本文中,我們提出了一種方法來處理遠程監督的NER數據的兩個問題。
對于不完整的注釋問題,我們基于一個擴展的CRF-PA模型(Tsuboi等人,2008)將數據視為部分注釋,該模型可以直接從部分注釋(PA)中學習。
嘈雜的注釋問題在遠程監督的關系提取中也是無處不在的,研究人員試圖通過強化來減少這個問題。試圖通過使用強化學習(RL)技術來解決這一問題,以選擇積極的實例 (Feng等人,2018)。受到他們工作的啟發。
我們設計了一個實例選擇器,從遠程監督的NER數據中獲得干凈的實例。
綜上所述,我們做出了以下貢獻:
我們提出了一種新型的命名實體識別方法。
識別的新方法,它首先結合了部分注釋學習和強化學習的優點,以處理遠距離監督帶來的不完全注釋和噪聲注釋的問題。
我們在遠距離監督的幫助下建立了兩個中文命名實體識別的數據集,分別為電子商務和新聞領域。
在新創建的數據集上的實驗結果表明 所提出的方法比對比系統表現得更好。
2.Basic settings
2.1 Distantly Supervised NER Data
這里我們主要關注中文的NER,它比其他語言的NER更難,例如 由于缺乏諸如大寫字母等形態上的變化,特別是單詞分割的不確定性,中文的NER比其他語言如英語的NER更難在詞的分割上。
為了在新領域的新實體類型中獲得一個好的標記器,我們進行遠距離監督以獲得中文NER的標記數據。
最初,我們有一小部分新實體類型的標記種子數據H,以及大規模的無標記數據池U。我們收集命名實體來構建字典D,并使用D的條目通過遠距離監督的方法來匹配U中的句子字符串。
然后,我們得到一個包含至少一個匹配字符串的句子集合,這個集合被表示為A。
本文的目的是,我們充分利用H和A來建立一個NER系統
圖2:擬議模型的框架,由兩部分組成。右邊的實例選擇器 是一個策略網絡,它從候選數據集中選擇句子來擴展訓練數據,以改善 左邊的NE標簽器。
實例選擇器是根據NE Tagger提供的獎勵來訓練的。
在本文中,我們將中文NER任務視為一個序列標簽問題。我們利用了傳統的 BIO模式來表示句子的標簽。具體來說,我們用 "B-XX "來標記一個實體的起始字符。用 "B-XX "來標記一個實體的起始字符,用 "I-XX "來標記該實體的其他字符,如果該字符不在一個實體內,則標記為 "O"。實體,其中 "XX "是實體的類型。
2.2 The Baseline LSTM-CRF
3 Our Approach
本節介紹了我們通過遠距離監督進行新型NER的方法。為了處理不完整和嘈雜的注釋問題,我們提出了一種新型的NER任務模型。
如圖2所示,我們的模型框架由兩個模塊組成:基于部分注釋學習的NE標簽器,以減少未知類型字符的影響;實例選擇器,從候選集中選擇積極的句子并提供給NE標簽器。
3.1 LSTM-CRF-PA for Incomplete Annotation
將這些字符視為非實體是不恰當的,盡管根據字典它們不能被匹配。這是一個常見的問題,被稱為假陰性實例,如果我們任意地將它們標記為 "O",可能會誤導模型。因此,我們認為每個不匹配的字符可以被注釋為任何適當的標簽。
例如,在圖3中,除了 "皮鞋 "有明確的標簽外,其余所有的字符都可以被標記為 "B-PDT"、"I-PDT "等等。換句話說,我們為每個遠距離監督的句子表示一組標簽序列z,其概率自然是z中每個可能的標簽序列y?的概率之和。
我們針對這種情況擴展原始模型 情況,并在所有候選輸出標簽序列上應用softmax,因此一個遠距離監督實例的概率計算如下:
?我們利用一個負對數可能性目標作為損失函數。
因此,我們的模型與CRF-PA的損失函數可以計算如下:
其中Θ是所有NE標記器參數的集合
特別是,如果該句子是手工注釋的,并且每個字符都有明確的標簽。
集合z 只包括一個標簽序列。因此,上述目標函數也適用于有監督的實例。
我們使用標準的反向傳播方法來最小化NE標簽器的損失函數。?
3.2 Instance Selector for Noisy Annotation
我們的目標是用強化學習(RL)技術訓練一個代理作為實例選擇者。按照Feng等人(2018)的做法,代理與環境互動,并在句子層面做出決定。 我們將最初的手工標記的種子集H和遠距離監督的集A合并成一個候選數據集 C.?
在每個情節中,我們從C中收集一個隨機大小的實例袋B。囊中的所有監督實例都被默認為不需要代理的決定就可以選擇。
對于當前袋中的每個遠距離監督的 實例,代理從{1,0}的集合中做出一個動作,決定是否選擇這個 譬喻說?
當所有的行動都完成后,代理會得到獎勵。獎勵 代表對這個包的行動的反饋,并將用于更新代理。
代理的目標是決定能使獎勵最大化的行動。狀態表示。在我們看來,狀態st代表了當前的實例以及它的標簽序列。
我們將狀態表示為一個向量St ,它由以下信息組成:(1) (1) 當前實例的序列化向量表示,它是由基線模型的BiLSTM層觀察到的。
基線模型。
(2) 用共享編碼器的MLP層的輸出計算出的標簽分值 (在公式1中表示為ot 公式1中表示為ot)和該實例的注釋,即標簽條件噪聲的
遠距離監督的注釋。
更具體地說,如果一個字符是一個實體的一部分,并被注釋為一個明確的標簽(如圖3中的 "皮 "和 "鞋"),這個位置的得分就是ot中的相應值。否則,我們通過對ot中所有標簽的分數進行平均來計算它。這樣,標簽分數向量的維度就等于句子的統一長度,并將與第一部分串聯起來。
政策網絡。代理人在∈{0,1}處決定一個行動,表示選擇器是否會選擇第t個遠距離監督的實例。
行動值由選擇器取樣為AΘ(st , at),其中Θ
是一個多層感知器(MLP),參數為{W, b}。我們采用Logistic函數作為策略函數。
其中St是狀態向量,σ(.)是sigmoid函數。
Reward. 獎勵是用來評估當前NE標記器預測每個字符標簽的能力。當模型完成當前袋中的所有選擇時,它將獲得一個延遲的平均獎勵,在此之前,每個動作的獎勵為零。當前包B由兩個子集組成:手工標記的句子H?和遠距離監督的實例A?。現在,NE標簽器為袋子B的每一個句子計算了條件概率,獎勵可以在選定的遠距離監督實例A?s和所有手工標記的句子的集合上計算。
與Feng等人(2018)的工作不同,我們有一組監督數據。我們的選擇器可以在這些關于哪些句子被正確標注的先驗知識指導下進行訓練。
因此,獎勵將變得可靠和有導向性,它可以指導選擇器最大化訓練數據集中所有實例的可能性。
選擇器訓練。 我們使用策略梯度法(Sutton等人,2000)來優化策略網絡,使選擇的獎勵最大化。對于每個隨機大小的袋子B,每個動作r(at)的反饋與平均獎勵r相同。
我們計算梯度并更新選擇器,方法如下:
?3.3 Joint Training
NE標記器和實例選擇器的參數是迭代學習的。在每一輪中,選擇器 首先從A中選擇As,并將其與標記器的監督句子合并。
同時,NE標簽器的參數從新的訓練數據中學習,標簽器向選擇器提供反饋 獎勵給選擇器以優化其策略函數。
4 Experiment
4.1 Datasets
我們在實驗中使用了兩個數據集:一個來自電子商務領域,另一個來自新聞領域:
EC:在電子商務領域(EC),我們有五種類型的實體。品牌,產品,模型,材料,和 關于用戶查詢的規范。該數據包含2400個由注釋者標記的句子。我們將這些數據分成 分為三組:1200句用于訓練,400句用于開發,800句用于測試。我們收集了一個實體列表 來構建訓練數據的字典。為了減少歧義的影響,我們刪除了屬于一個以上類型的條目。屬于一個以上的類型,或者是一個數字或單個字符。
最后,該詞典有927個 條目(包括補充材料中的EC.dic)。我們對原始數據進行遠距離監督,得到2500個句子。
NEWS:對于新聞領域,我們使用來自MSRA的NER數據,該數據曾用于Sighan-bakeoff(Levow,2006)。
我們只在PERSON類型上測試我們的系統。我們隨機選擇3000個句子作為訓練數據集,3328個句子作為設計數據,3186個句子作為測試數據。其余的數據集被用作原始數據,有36,602個句子。
我們從訓練數據中收集一個人名列表。為了增加覆蓋率,我們在列表中增加了一個額外的名字。最后,該列表有71,664個條目
?(包括在補充材料中的NEWS.dic)。 ? ??
我們對原始數據進行遠距離監督,得到3,722個句子。
Embedding:在我們的方法中,我們需要通過查詢表將漢字映射為矢量表示,查詢表可以通過隨機或預訓練進行初始化。在我們的方法中,我們需要通過查詢表將漢字映射為矢量表示,查詢表可以通過隨機或預訓練進行初始化。之前的許多工作(Lample等人,2016;Peng和Dredze,2015b)表明,在大規模無標簽語料庫上的預訓練嵌入能夠初始化表格并有效觀察到改進。
因此,我們從用戶在互聯網上生成的文本中收集了100萬個句子,并使用word2vec1工具進行預訓練嵌入。
我們設定嵌入維度為100,最小出現頻率為5。和窗口大小為5。
?4.2 Settings
為了進行評估,我們在實驗中使用了實體層面的精度(P)、召回率(R)以及它們的F1值。實驗中,只有當一個被標記的實體與黃金實體完全匹配時,才將其視為正確。
在我們的模型中,有幾個超參數。我們根據開發的表現,憑經驗來設置它們。實例選擇器是一個多層感知器,每個隱藏層有100個單元。
我們使用Adam(Kingma and Ba, 2014)來訓練實例選擇器,學習率為0.001。對于標簽器的參數,我們將字符嵌入維度設置為100,隱藏特征的維度大小為200。
我們利用小批量128的在線訓練來學習模型參數。最大迭代次數設置為800次,根據開發性能選擇最佳迭代模型。
我們使用學習率為0.001的RMSprop(Tieleman和Hinton,2012)來更新模型參數。
在訓練階段,我們采用放棄技術來避免過度擬合,放棄值為0.2階段。
4.3 Baselines
4.4 Results
在這一節中,我們展示了我們提出的系統和上面提到的其他系統的模型性能。表1顯示了對EC數據的實驗結果,表2顯示了對NEWS數據的實驗結果。新聞數據的結果。
基于Dict的系統的低召回率表明字典的覆蓋率很低,即使是 我們在新聞數據中擁有超過7萬個人名。與在H上訓練的LSTM-CRF相比,在H和A上訓練的LSTM-CRF系統在兩個數據集上的性能低得多。這些事實表明,由遠距離監督產生的數據包含許多影響模型性能的噪音。
模型的性能。LSTM-CRF-PA比在H上訓練的LSTM-CRF產生更好的性能,在EC上顯示+0.89的F1改進,在NEWS上顯示+1.93的F1改進。
這表明,CRF-PA的學習可以減少不完整注釋的影響。
從表中我們發現,與LSTM-CRF-PA相比,LSTM-CRF-PA+SL獲得了絕對的 在EC和NEWS上分別提高了+1.37和+0.84個F1點。總的來說,我們的最終系統
(LSTM-CRF-PA+SL)比我們的基線系統LSTM-CRF在EC和NEWS上分別取得了+2.26和+2.77個F1點的更好改進。這些事實表明,基于RL的實例選擇器可以 為CRF-PA學習提供額外的幫助。
我們進一步研究不同規模的人類注釋數據的影響。我們從人類注釋的數據中隨機選擇25%的 和50%的句子作為訓練數據,并在此基礎上建立新的實體字典。分別建立新的實體字典。
新的字典被用來生成遠距離監督的注釋數據。表3顯示了EC數據集的結果,其中前兩行是25%的數據,第三和第四行是50%的數據。
前兩行是25%,第三和第四行是50%,最后兩行是100%。從表中可以看出,LSTM-CRF-PA+SL的表現比基線系統更好。比基線系統表現更好,在25%和50%的情況下分別有+4.72和+2.48的F1改進。對50%的改進。
這表明,對于較小的人類注釋數據,我們提出的方法可以 提供相對較大的改進。
全文大概翻譯就這了
ok 全文看完 垃圾論文 鑒定完畢 唯一的貢獻是創了兩個數據集
總結
以上是生活随笔為你收集整理的Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FastAdmin自定义批量操作
- 下一篇: [RK3288][Android6.0]