當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文NER涨点神器！基于多元数据的双流Transformer编码模型

發(fā)布時間：2024/10/8 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了中文NER涨点神器！基于多元数据的双流Transformer编码模型小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者?|?寧金忠

學(xué)校?|?大連理工大學(xué)博士生

研究方向?|?信息抽取

本篇論文發(fā)表于 ACL 2021，作者聚焦于中文 NER 任務(wù)。近些年來，在模型中引入詞匯信息已經(jīng)成為提升中文 NER 性能的主流方法。已有的中文 NER 詞增強(qiáng)方式主要通過 lattice 結(jié)構(gòu)在模型中引入詞匯的邊界信息和詞嵌入信息。現(xiàn)如今我們使用的漢字從古老的象形文字演化而來，漢字中包含的偏旁部首等結(jié)構(gòu)可以代表某些含義。因此，本文的作者提出在模型中融合進(jìn)漢字的結(jié)構(gòu)信息（例如部首等）。

論文標(biāo)題：

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

論文鏈接：

https://aclanthology.org/2021.acl-long.121.pdf

中文詞匯增強(qiáng)回顧

中文 NER 的詞匯增強(qiáng)主要分為兩條路線：

1. Dynamic Architecture：通過動態(tài)結(jié)構(gòu)，在模型中注入詞匯信息；

2. Adaptive Embedding：將詞匯信息融合到 Embeding 中。

近些年來各大頂會上的中文 NER 詞匯增強(qiáng)相關(guān)論文總結(jié)如下（參考博文 [1] ）:

其具體實(shí)現(xiàn)方法總結(jié)為:

▲ 詞增強(qiáng)NER模型簡介

已有的詞增強(qiáng) NER 模型的性能如下圖所示：

▲ 模型實(shí)驗(yàn)結(jié)果（表中LEBERT使用的詞表和預(yù)訓(xùn)練詞向量與其他模型不同，結(jié)果在此處僅做參考，詳情見論文）

論文方法介紹

文中作者的主要貢獻(xiàn)為：

在中文 NER 模型中使用了多元數(shù)據(jù)特征（字特征，詞特征以及漢字的結(jié)構(gòu)特征）。
提出了一種能夠?qū)⒆痔卣鳌⒃~特征和部首特征結(jié)合的雙流（two-stream）模型來提高 MECT 方法的性能。
在多個中文 NER 數(shù)據(jù)集上的結(jié)果說明了模型結(jié)果的有效性。

▲ The whole architecture

本文模型的整體架構(gòu)如上圖所示。模型的輸入為中文原始文本，例如圖中所示的“南京市長江大橋”。模型中采用了模型 FLAT 中類似的 encoder 結(jié)構(gòu)，從而可以將漢字以及詞匯的語義 & 邊界信息整合到模型當(dāng)中。

▲ FLAT

關(guān)于 FLAT，不了解的小伙伴可以通過該帖子 [1] 進(jìn)行了解。

與 FLAT 中的改進(jìn) Transformer encoder 不同的是，本文的作者提出了一種使用 Cross-Transformer 模塊的 two-stream 模型。作者把漢字和包含漢字的詞語看作一個“元（Meta）”，把每個漢字的包含的字根看做另外一個“元”。之后使用與 Transformer 中類似的自注意力機(jī)制，作者對兩個“元”中的數(shù)據(jù)進(jìn)行雙路的交叉計(jì)算相關(guān)性，從而實(shí)現(xiàn)了多元信息的融合。

另外，作者在兩個“元”的自注意力矩陣中加入一個隨機(jī)初始化的注意力矩陣來對多元數(shù)據(jù)之前注意力值的偏差進(jìn)行校正。

2.1 使用CNN提取Radical-level特征

漢字是象形文字，其字形和字義具有非常密切的聯(lián)系。例如，包含“艸”或者“木”的文字通常和植物有關(guān)，包含“疒”的文字通常和疾病有關(guān)。因此，作者采用漢字中包含的字根（Structural Components）的嵌入特征來表達(dá)漢字的結(jié)構(gòu)信息。作者使用的拆分方法是將漢字拆分成無法拆分的最小字根單位（如下圖所示）：

▲ 漢字結(jié)構(gòu)信息

之后作者使用如下圖所示的 CNN 網(wǎng)絡(luò)來提取 Radical-level 特征。

作者首先對原始文本中的漢字進(jìn)行拆字，然后把得到的字根特征輸入到 CNN 特征提取器當(dāng)中，然后使用最大值池化和全連接網(wǎng)絡(luò)得到每個漢字的 Radical-level 特征。

2.2 Cross-Transformer模塊

獲取 Radical-level 特征特征后，作者使用 Cross-Transformer 模塊（如下圖所示）來對融合多元數(shù)據(jù)。

模型的輸入通過詞嵌入特征和 Radical-level 嵌入特征的線性映射得到：

其中，和分別是 lattice 嵌入特征和 Radical-level 特征，為單位矩陣，每一個線性映射矩陣均為可學(xué)習(xí)參數(shù)。之后，作者使用和 FLAT 模型一樣的相位位置編碼來計(jì)算 Cross-Transformer 的注意力矩陣：

其中是 lattice 注意力得分，表示部首注意力得分，為可學(xué)習(xí)參數(shù)。為相對位置編碼，和 FLAT 中原本的相對位置編碼相比，進(jìn)行了一定的簡化：

2.3 Random Attention & 融合方法

Random Attention 是指在注意力矩陣上加上的一個隨機(jī)初始化的參數(shù)學(xué)習(xí)矩陣：

關(guān)于模型的融合方法，作者將兩路的注意力值拼接以后經(jīng)過一個線性映射來多元數(shù)據(jù)中提取的特征。最后，作者 mask 掉提取的詞部分的特征，將提取的字特征通過 CRF 來進(jìn)行解碼。

實(shí)驗(yàn)結(jié)果展示

3.1 主試驗(yàn)

作者在四個經(jīng)典的中文 NER 數(shù)據(jù)集（Weibo，Resume，MSRA，Ontonotes 4.0）上進(jìn)行了實(shí)驗(yàn)，并且選取 FLAT 作為 baseline。

結(jié)果顯示，相比于 baseline 模型 FLAT，在模型中加入漢字結(jié)構(gòu)特征以后，性能有了一定提升。據(jù)觀察，在小規(guī)模數(shù)據(jù)集（例如 weibo）或者多類別數(shù)據(jù)集（Ontonotes 4.0）上，模型的提升更加顯著。

3.2 Cross-Transformer注意力值可視化

▲ Visualization of cross-attention

從上圖中（a）可以看出，Radical 注意力更關(guān)注全局的相關(guān)性，而 lattice 注意力更關(guān)心漢字和詞匯的相關(guān)性。

3.3 Radical特征的影響

▲ Visualization of cross-attention

作者利用 Resume 數(shù)據(jù)集訓(xùn)練得到的漢字 radical-level embedding 進(jìn)行了可視化，發(fā)現(xiàn)結(jié)構(gòu)相近或者包含字根相近的字，在 radical-level embedding 空間中的距離就越近。結(jié)果如上圖所示。
作者發(fā)現(xiàn)引入 radical-level 特征，可是使得一些常見的錯誤得到修正。例如在 Ontonotes 4.0 數(shù)據(jù)集中，“百分之四十三點(diǎn)二（43.2%）”被標(biāo)注成了 PER 人名。引入 radical-level 特征后可以對該問題進(jìn)行校正。

3.4 推理速度

▲ Relative inference speed of each model

由于模型采用了 Transformer 編碼結(jié)構(gòu)，模型具有不錯的推理速度。

3.5 消融實(shí)驗(yàn)

▲ 消融試驗(yàn)方案

▲ 消融實(shí)驗(yàn)結(jié)果

作者設(shè)計(jì)了三個消融實(shí)驗(yàn)：

實(shí)驗(yàn) A：把 Radical 特征和 lattice 特征拼接，使用 single-stream 模型。
實(shí)驗(yàn) B：依然使用 two-stream 模型，但兩個 stream 之間不再交叉計(jì)算注意力值。
-RA 實(shí)驗(yàn)：指去掉 random attention 的實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果顯示，模型中的模塊均有效。

結(jié)論

本文提出了一個融入漢字結(jié)構(gòu)特征的 two-stream Transformer 編碼模型——MECT，該模型在多個中文 NER 數(shù)據(jù)集上均取得了很好的效果。

參考文獻(xiàn)

[1] Li X , ?Yan H , ?Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺已發(fā)表或待發(fā)表的文章，請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式（微信），以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的中文NER涨点神器！基于多元数据的双流Transformer编码模型的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 6月23日客厅放主柜好不好
下一篇：一块V100运行上千个智能体、数千个环境