【层级多标签文本分类】融合标签层级结构的文本分类
融合標簽層級結構的文本分類
1、背景
1、作者(第一作者和通訊作者)
???劉翰錯,黃賢英
2、單位
???重慶理工大學
3、年份
???2021
4、來源
???山西大學學報(自然科學版)
2、四個問題
1、要解決什么問題?
???解決標簽之間的語義、標簽之間的相關性,文本特征對標簽特征的影響。
2、用了什么方法解決?
???提出了融合標簽結構的層級標簽文本分類模型(Label Hierarchical and Semantic Structure Learning, LHSSL)
3、效果如何?
4、還存在什么問題?
論文筆記
0、引言
???在本小節(jié)中,作者總結了目前現(xiàn)有的層級文本分類主要有兩種:
???關注局部:關注局部 ,傾向于構造多個層次分類模型,然后以自頂向下的方式遍歷層次結構。每個分類器預測對應的類別或類別層次。
???關注全局:關注全局,將所有類別集合在一起,用單個分類器進行預測。
???作者指出這些方法忽略了標簽的語義結構特征、層級結構特征以及它們與輸入文本特征之間的關系。還指出當標簽數(shù)量較大、標簽相似度較高時,人工分類很困難。接著作者針對以上問題提出了層級標簽文本分類模型(LHSSL):
???(1)通過傳統(tǒng)編碼器提取輸入文本特征,連接激活函數(shù)得到預測概率分布
???(2)引入使用外部語料預訓練好的語言模型得到標簽嵌入向量,計算標簽 嵌入向量間的相似度得到標簽的語義相關結構圖
???(3)根據(jù)數(shù)據(jù)集給出的多層級類別標簽,構建標簽的層級結構矩陣(同時由于標簽數(shù)量較少,使用單層圖卷積就可以提取整個圖結構的特征。因此使用共享參數(shù)的單層圖卷積學習語義結構圖與層級結構圖的共享特征得到了兩種標簽嵌人)
???(4)利用自注意力機制學習標簽之間的關系得到新的標簽嵌入向量
???(5)計算文本嵌人與標簽嵌人的相似度,并且動態(tài)融合輸人文本的特征
???(6)經(jīng)過激活后構造標簽模擬分布,將兩個分布加和平均并激活后得到最終的分類結果。
1、相關工作
1.1、圖卷積神經(jīng)網(wǎng)絡
???相較于卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡,圖卷積神經(jīng)網(wǎng)絡更適用于處理非歐幾里得結構性的圖數(shù)據(jù)。圖卷積的目的是通過聚合節(jié)點自身以及鄰居節(jié)點的信息提取拓撲圖的空間特征。
1.2、標簽嵌入
???標簽嵌入學習是通過學習標簽的向量表示來增強模型的分類效果。本文也構建了模型學習標簽之間的關系從而生成含有豐富信息的嵌入向量。
1.3、標簽平滑
???標簽平滑用于解決由使用one-hot向量表示標簽帶來的模型過擬合的問題,以及全概率和零概率導致樣本所屬類別和其他類別預測概率相差盡可能大致使模型過于自信的問題。
1.4、標簽增強
???標簽分布反映了數(shù)據(jù)集中每個標簽與樣本匹配的程度。大多數(shù)數(shù)據(jù)集的標簽都是單一標簽的集合,要獲取數(shù)據(jù)真實的標簽分布,需要對每條樣本進行大量的標注,當標簽數(shù)目較多時,會花費大量的時間與精力,標注的準確性也得不到保障。
2、模型設計
???LHSSL 模型主要分為三個部分:預測概率分布計算、標簽模擬分布構造以及損失計算。
2.1、預測概率分布計算
???使用CNN、RNN、LSTM、BERT等用于提取文本特征。連接softmax激活函數(shù)進行非線性轉換得到預測的標簽的概率分布。
2.2、標簽模擬分布構造
2.2.1、標簽信息提取模塊
???標簽信息提取模塊分為兩個子模塊:
???標簽語義結構特征提取:標簽語義結構特征提取模塊首先初始化標簽嵌入向量,將包含層級結構的標簽集L中的每個標簽按照層級結構拆分為多個單詞。通過引入使用外部語料庫預訓練好的語言模型,如word2vec、glove等,得到每個單詞的嵌入向量。將單詞嵌人向量累加后除以單詞的個數(shù)得到每個層級標簽的嵌入表示。
???標簽層級結構特征提取:標簽層級結構特征提取模塊通過數(shù)據(jù)集中標簽本身的層級結構構造結構關系圖。
2.2.2、標簽混淆模塊
2.3、損失計算
3、實驗設置
3.1、數(shù)據(jù)集
???本文采用四個數(shù)據(jù)集:20NG、8NG_H、8NG_E和WOS11967。
3.2、實驗參數(shù)設置
3.3、實驗參數(shù)設置
???
從表6-8中數(shù)據(jù)可以得到結論:無論數(shù)據(jù)集的標簽中是否含有噪聲,利用標簽的語義關系以及層級結構關系特征,從一定程度上都能提高模型的分類性能。
總結
以上是生活随笔為你收集整理的【层级多标签文本分类】融合标签层级结构的文本分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为手机丢失定位网站_手机端网站优化要从
- 下一篇: 计算机科学研究课题申报书,教育科学研究课