中文NER涨点神器!基于多元数据的双流Transformer编码模型
?PaperWeekly 原創(chuàng) ·?作者?|?寧金忠
學(xué)校?|?大連理工大學(xué)博士生
研究方向?|?信息抽取
本篇論文發(fā)表于 ACL 2021,作者聚焦于中文 NER 任務(wù)。近些年來,在模型中引入詞匯信息已經(jīng)成為提升中文 NER 性能的主流方法。已有的中文 NER 詞增強(qiáng)方式主要通過 lattice 結(jié)構(gòu)在模型中引入詞匯的邊界信息和詞嵌入信息。現(xiàn)如今我們使用的漢字從古老的象形文字演化而來,漢字中包含的偏旁部首等結(jié)構(gòu)可以代表某些含義。因此,本文的作者提出在模型中融合進(jìn)漢字的結(jié)構(gòu)信息(例如部首等)。
論文標(biāo)題:
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition
論文鏈接:
https://aclanthology.org/2021.acl-long.121.pdf
中文詞匯增強(qiáng)回顧
中文 NER 的詞匯增強(qiáng)主要分為兩條路線:
1. Dynamic Architecture:通過動態(tài)結(jié)構(gòu),在模型中注入詞匯信息;
2. Adaptive Embedding:將詞匯信息融合到 Embeding 中。
近些年來各大頂會上的中文 NER 詞匯增強(qiáng)相關(guān)論文總結(jié)如下(參考博文 [1] ):
其具體實(shí)現(xiàn)方法總結(jié)為:
▲ 詞增強(qiáng)NER模型簡介
已有的詞增強(qiáng) NER 模型的性能如下圖所示:
▲ 模型實(shí)驗(yàn)結(jié)果(表中LEBERT使用的詞表和預(yù)訓(xùn)練詞向量與其他模型不同,結(jié)果在此處僅做參考,詳情見論文)
論文方法介紹
文中作者的主要貢獻(xiàn)為:
在中文 NER 模型中使用了多元數(shù)據(jù)特征(字特征,詞特征以及漢字的結(jié)構(gòu)特征)。
提出了一種能夠?qū)⒆痔卣鳌⒃~特征和部首特征結(jié)合的雙流(two-stream)模型來提高 MECT 方法的性能。
在多個中文 NER 數(shù)據(jù)集上的結(jié)果說明了模型結(jié)果的有效性。
▲ The whole architecture
本文模型的整體架構(gòu)如上圖所示。模型的輸入為中文原始文本,例如圖中所示的“南京市長江大橋”。模型中采用了模型 FLAT 中類似的 encoder 結(jié)構(gòu),從而可以將漢字以及詞匯的語義 & 邊界信息整合到模型當(dāng)中。
▲ FLAT
關(guān)于 FLAT,不了解的小伙伴可以通過該帖子 [1] 進(jìn)行了解。
與 FLAT 中的改進(jìn) Transformer encoder 不同的是,本文的作者提出了一種使用 Cross-Transformer 模塊的 two-stream 模型。作者把漢字和包含漢字的詞語看作一個“元(Meta)”,把每個漢字的包含的字根看做另外一個“元”。之后使用與 Transformer 中類似的自注意力機(jī)制,作者對兩個“元”中的數(shù)據(jù)進(jìn)行雙路的交叉計(jì)算相關(guān)性,從而實(shí)現(xiàn)了多元信息的融合。
另外,作者在兩個“元”的自注意力矩陣中加入一個隨機(jī)初始化的注意力矩陣來對多元數(shù)據(jù)之前注意力值的偏差進(jìn)行校正。
2.1 使用CNN提取Radical-level特征
漢字是象形文字,其字形和字義具有非常密切的聯(lián)系。例如,包含“艸”或者“木”的文字通常和植物有關(guān),包含“疒”的文字通常和疾病有關(guān)。因此,作者采用漢字中包含的字根(Structural Components)的嵌入特征來表達(dá)漢字的結(jié)構(gòu)信息。作者使用的拆分方法是將漢字拆分成無法拆分的最小字根單位(如下圖所示):
▲ 漢字結(jié)構(gòu)信息
之后作者使用如下圖所示的 CNN 網(wǎng)絡(luò)來提取 Radical-level 特征。
作者首先對原始文本中的漢字進(jìn)行拆字,然后把得到的字根特征輸入到 CNN 特征提取器當(dāng)中,然后使用最大值池化和全連接網(wǎng)絡(luò)得到每個漢字的 Radical-level 特征。
2.2 Cross-Transformer模塊
獲取 Radical-level 特征特征后,作者使用 Cross-Transformer 模塊(如下圖所示)來對融合多元數(shù)據(jù)。
模型的輸入 通過詞嵌入特征和 Radical-level 嵌入特征的線性映射得到:
其中, 和 分別是 lattice 嵌入特征和 Radical-level 特征, 為單位矩陣,每一個線性映射矩陣 均為可學(xué)習(xí)參數(shù)。之后,作者使用和 FLAT 模型一樣的相位位置編碼來計(jì)算 Cross-Transformer 的注意力矩陣:
其中 是 lattice 注意力得分, 表示部首注意力得分, 為可學(xué)習(xí)參數(shù)。 為相對位置編碼,和 FLAT 中原本的相對位置編碼相比,進(jìn)行了一定的簡化:
2.3 Random Attention & 融合方法
Random Attention 是指在注意力矩陣上加上的一個隨機(jī)初始化的參數(shù)學(xué)習(xí)矩陣:
關(guān)于模型的融合方法,作者將兩路的注意力值拼接以后經(jīng)過一個線性映射來多元數(shù)據(jù)中提取的特征。最后,作者 mask 掉提取的詞部分的特征,將提取的字特征通過 CRF 來進(jìn)行解碼。
實(shí)驗(yàn)結(jié)果展示
3.1 主試驗(yàn)
作者在四個經(jīng)典的中文 NER 數(shù)據(jù)集(Weibo,Resume,MSRA,Ontonotes 4.0)上進(jìn)行了實(shí)驗(yàn),并且選取 FLAT 作為 baseline。
結(jié)果顯示,相比于 baseline 模型 FLAT,在模型中加入漢字結(jié)構(gòu)特征以后,性能有了一定提升。據(jù)觀察,在小規(guī)模數(shù)據(jù)集(例如 weibo)或者多類別數(shù)據(jù)集(Ontonotes 4.0)上,模型的提升更加顯著。
3.2 Cross-Transformer注意力值可視化
▲ Visualization of cross-attention
從上圖中(a)可以看出,Radical 注意力更關(guān)注全局的相關(guān)性,而 lattice 注意力更關(guān)心漢字和詞匯的相關(guān)性。
3.3 Radical特征的影響
▲ Visualization of cross-attention
作者利用 Resume 數(shù)據(jù)集訓(xùn)練得到的漢字 radical-level embedding 進(jìn)行了可視化,發(fā)現(xiàn)結(jié)構(gòu)相近或者包含字根相近的字,在 radical-level embedding 空間中的距離就越近。結(jié)果如上圖所示。
作者發(fā)現(xiàn)引入 radical-level 特征,可是使得一些常見的錯誤得到修正。例如在 Ontonotes 4.0 數(shù)據(jù)集中,“百分之四十三點(diǎn)二(43.2%)”被標(biāo)注成了 PER 人名。引入 radical-level 特征后可以對該問題進(jìn)行校正。
3.4 推理速度
▲ Relative inference speed of each model
由于模型采用了 Transformer 編碼結(jié)構(gòu),模型具有不錯的推理速度。
3.5 消融實(shí)驗(yàn)
▲ 消融試驗(yàn)方案
▲ 消融實(shí)驗(yàn)結(jié)果
作者設(shè)計(jì)了三個消融實(shí)驗(yàn):
實(shí)驗(yàn) A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。
實(shí)驗(yàn) B:依然使用 two-stream 模型,但兩個 stream 之間不再交叉計(jì)算注意力值。
-RA 實(shí)驗(yàn):指去掉 random attention 的實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果顯示,模型中的模塊均有效。
結(jié)論
本文提出了一個融入漢字結(jié)構(gòu)特征的 two-stream Transformer 編碼模型——MECT,該模型在多個中文 NER 數(shù)據(jù)集上均取得了很好的效果。
參考文獻(xiàn)
[1] Li X , ?Yan H , ?Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.
[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
·
總結(jié)
以上是生活随笔為你收集整理的中文NER涨点神器!基于多元数据的双流Transformer编码模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 6月23日客厅放主柜好不好
- 下一篇: 一块V100运行上千个智能体、数千个环境