【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級專利分類研究
1、背景
1、作者(第一作者和通訊作者)
???陸曉蕾,倪斌
2、單位
???廈門大學(xué),中國科學(xué)院計算技術(shù)研究所廈門數(shù)據(jù)智能研究院
3、年份
???2020
4、來源
???中文信息學(xué)報
2、四個問題
1、要解決什么問題?
???實現(xiàn)專利多層文本分類
2、用了什么方法解決?
???提出了基于預(yù)訓(xùn)練語言模型的BERT-CNN多層級專利分類模型
3、效果如何?
???該模型在準確率上達到了84.3%,大幅優(yōu)于CNN、RNN等其他深度學(xué)習(xí)算法。
4、還存在什么問題?
??? 文章沒有解決多標(biāo)簽問題、未將模型擴展到更深層級的分類中。
論文筆記
0、引言
???作者在引言部分介紹了近年來,工業(yè)界和學(xué)術(shù)界產(chǎn)生了大量專利申請。現(xiàn)行《國際專利分類法》包含 “部—類—亞 類—組”四個層級,其中“組”級共含有7萬多種類別,人工太難分辨,所以提出用神經(jīng)網(wǎng)絡(luò)來分類。
???注:專利分類作為文本分類中的一個垂直領(lǐng)域,標(biāo)簽有多層級、多標(biāo)簽的特點,不像做新聞分類、情感分類很多時候標(biāo)簽單一、且簡單、都是自定義的。所以專利分類寫論文更有“點”可寫。
1、相關(guān)研究
???此小節(jié)論述了文本分類的綜述,從機器學(xué)習(xí)到神經(jīng)網(wǎng)絡(luò)到詞向量、Elmo、GPT、Transformer、BERT。
???最后提出BERT也是有缺點的。“雖然BERT提供了下游任務(wù)的簡單接口,可以直接進行文本分類。然而,BERT作為預(yù)訓(xùn)練語言模型,關(guān)于其作為文檔向量的研究和應(yīng)用尚不多見。”
???然后說fastText可以做文檔向量,效果也不錯,但是它使用的是word embedding,不能解決語義(多義詞)問題。
???最后的idea就是把BERT與fastText結(jié)合。
2、研究方法
2.1、BERT-CNN 模型結(jié)構(gòu)
2.1.1、BERT層
???BERT采用雙向Transformer編碼器,利用多頭注意力機制融合了上下文信息。與早期通過訓(xùn)練語言模型的目標(biāo)任務(wù)———“預(yù)測下一個詞”不同的是,BERT設(shè)置了兩種目標(biāo)任務(wù),分別獲取單詞與句子級別的表義方式:
①遮蓋語言模型:隨機遮蓋15%的句子,讓編碼器預(yù)測這些詞;
②上下句關(guān)系預(yù)測:通過預(yù)測兩個隨機句子能否組成上下句來學(xué)習(xí)句子間的關(guān)系。
???本文選取BERT-Base作為預(yù)訓(xùn)練模型。BERT-Base擁有12個Transforme層,本文中的BERT-CNN采用BERT后四層的輸出作為下游CNN模型的輸入。
2.1.2、Conv2D層
???本文取BERT最后四層作為CNN的輸入矩陣I(768 x 4)。然后用32個濾波器F(3×4),步長為1,掃描輸入矩陣I,目的是提取文本3-Gram特征,通過I?F 內(nèi)積獲得32個特征向量。為了降低計算的復(fù)雜度,CNN通常使用池化計算降低矩陣的維度。本文選取最大池化方式。
2.2、多層文本分類架構(gòu)
???多層文本分類其主要特點在于多層文本分類需要考慮的類別巨大,類別之間 往往存在各種依賴關(guān)系,并構(gòu)成一個復(fù)雜的層次化的類別體系。
目前處理該類問題一般有兩種策略
???全局策略:全局策略在處理多層級任務(wù)時沒有區(qū)分層級,使用單一的分類器,完全忽略類別間的層次結(jié)構(gòu),這在處理類別有限并且樣本分布均衡的任務(wù)時簡單有效。但是隨著層級、類別的增加,數(shù)據(jù)分布的不均衡,其魯棒性變低。
???局部策略:局部策略利用分治的思想,構(gòu)建一系列分類器,每個分類器只處理局部的類別。分類時,從分類體系的根節(jié)點出發(fā),自頂向下確定樣本的分類。(本文采用的局部策略)
???作者在本文中提供了一種處理標(biāo)簽有層級關(guān)系的文本分類辦法。
???首先對所有數(shù)據(jù)、一級標(biāo)簽進行分類;之后依次對所有歸類為一級標(biāo)簽A的數(shù)據(jù)、一級標(biāo)簽A的子標(biāo)簽進行分類,對所有歸類為一級標(biāo)簽B的數(shù)據(jù)、一級標(biāo)簽B的子標(biāo)簽進行分類,對所有歸類為一級標(biāo)簽…的數(shù)據(jù)、一級標(biāo)簽…的子標(biāo)簽進行分類。
3、實驗與結(jié)果
3.1、數(shù)據(jù)集
數(shù)據(jù)集采用國家信息中心提供的全國專利申請數(shù)據(jù) 。數(shù)據(jù)總量達到277萬條記錄。時間跨度為2017年全年(按照專利申請時間統(tǒng)計),地域覆蓋全國。
3.3、結(jié)果分析與討論
3.3.1、評估指標(biāo)
本文模型使用正確率作為評估指標(biāo),最終聯(lián)合模型的正確率 Acc(X)通過式(1)計算:
3.3.2、實驗結(jié)果
從實驗結(jié)果可以看到在各個模型上,前者的準確率均高于后者。證實了作者所提出模型在文本分類的功能。
3.3.3、其他數(shù)據(jù)集
為了 進 一 步 證 實BERT-CNN/RNN/Transformer等模型的效果,本文選取清華大學(xué)自然語言處理實驗室開源的新聞文本分類數(shù)據(jù)集進行平照實驗。
3.3.4、討論
模型的準確率在Transformer層數(shù)N=4時達到最大。當(dāng)N<4時Transformer的輸出作為文檔向量的代表性還不太強,準確率略有下降;當(dāng)N>4 時,文檔向量中表征詞匯語法關(guān)系的成分增大,對分類結(jié)果意義不大,反而造成干擾,導(dǎo)致準確率下降。
本文參考:https://comdy.blog.csdn.net/article/details/122683419
總結(jié)
以上是生活随笔為你收集整理的【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: liberty配置mysql数据源_Bl
- 下一篇: koa --- mongoose连接m