基于分层注意力网络的方面情感分析
點擊上方藍字關注我們
基于分層注意力網絡的方面情感分析
宋婷1,?陳戰偉2,?楊海峰1
1?太原科技大學計算機科學與技術學院,山西 太原 030024
2?中國移動通信集團山西有限公司,山西 太原 030001
?
摘要:基于深度學習的方面情感分析是自然語言處理的熱點之一。針對方面情感,提出基于方面情感分析的深度分層注意力網絡模型。該模型通過區域卷積神經網絡保留文本局部特征和不同句子時序關系,利用改進的分層長短期記憶網絡(LSTM)獲取句子內部和句子間的情感特征。其中,針對LSTM添加了特定方面信息,并設計了一個動態控制鏈,改進了傳統的LSTM。在SemEval 2014的兩個數據集和Twitter數據集上進行對比實驗得出,相比傳統模型,提出的模型的情感分類準確率提高了3%左右。
關鍵詞:?深度學習?;?方面情感?;?區域卷積神經網絡?;?分層長短期記憶網絡?;?注意力機制?;?動態控制鏈
論文引用格式:
宋婷,陳戰偉,楊海峰. 基于分層注意力網絡的方面情感分析[J]. 大數據, 2020, 6(5): 82-91.
SONG T, CHEN Z W, YANG H F. Aspect sentiment analysis based on a hierarchical attention network[J]. Big Data Research, 2020, 6(5): 82-91.
1 引言
社交網絡的使用日益頻繁,如何從網絡中挖掘并抽取用戶的情感信息是自然語言處理的研究熱點之一。基于方面的情感分析可針對不同方面挖掘用戶深層次的情感,首先區分文本中同一實體的不同屬性,這是方面情感分析的第一個子任務——方面詞的提取,提取的內容可以是一個單詞,也可以是一個短語;接著針對各個方面詞分析情感極性。例如句子“Good food but dreadful service at that restaurant”,通過分析可知,該語句評論的實體是餐廳,分別對兩個方面(即food和service)進行了相應的情感表達,二者的情感極性分別是積極和消極。在初期研究中,文本的分類問題使用的是傳統的機器學習方法,首先在訓練集上分析、提取數據信息,構建分類模型,從而預測未被標注的數據。傳統機器學習構建手工特征的方法是人工規則和特征工程,這是一個較為煩瑣的過程。近年來,深度學習被廣泛應用在自然語言處理領域,并取得了較好的成績,深度學習結合注意力機制在基于方面的情感分析中取得了比傳統網絡模型更好的效果。深度學習還被應用在機器翻譯、句子對建模等方面。深度學習最大的特點是能自動學習批量數據,繼而挖掘數據中的潛在特征,利用注意力機制加深對目標內容的關注,在訓練過程中依次調整參數。
目前結合深度學習的方面情感分析模型還存在許多問題,如基于卷積神經網絡的模型使用濾波器僅獲取文本句子內部對象的依賴關系;單層的基于循環神經網絡的模型結合注意力機制可獲取文本的長距離關系,卻忽略了句子間的依賴關系。
基于以上問題,本文提出基于方面情感分析的深度分層注意力網絡模型(hierarchical attention network model for aspect-based sentiment analysis, HANMAS),該模型結合區域卷積神經網絡和改進的分層長短期記憶網絡(LSTM),圍繞方面目標,既通過卷積神經網絡(convolutional neural network, CNN)單詞層和單詞層LSTM保留了句子的局部特征信息和依賴關系,又通過句子層LSTM獲得了句子間的情感依賴關系。本文提出的模型在傳統LSTM中嵌入特定方面目標,設計一條動態控制鏈,通過控制單元獲取對應的遠距離情感信息,從而獲得深層次的方面情感信息。筆者在SemEval 2014的兩個數據集和Twitter數據集上進行實驗,實驗結果表明,相比于基于方面情感的傳統神經網絡模型和基于注意力機制的網絡模型,本文模型的情感分類準確率相對較高。
2 相關工作
基于方面的情感分類屬于細粒度分類任務,傳統的情感分類方法有支持向量機、樸素貝葉斯、最大熵等,深度神經網絡是當下比較常用的方法。
卷積神經網絡和循環神經網絡(recurrent neural network,RNN)是常用的針對情感分析任務的深度網絡模型。卷積神經網絡通過卷積操作提取文本的局部特征,無時序性;循環神經網絡根據上一時序狀態和當前輸入確定當前網絡狀態,由此獲得網絡時序性。參考文獻在傳統卷積神經網絡的基礎上,依靠門控制部件輸出不同特定方面對應的信息,使模型性能得到了有效提升。參考文獻采用LSTM獲取句子的情感信息,LSTM是RNN的變體,其網絡嵌入了上一時刻的狀態值,使模型較好地解決了長距離依賴問題。參考文獻在傳統的卷積神經網絡基礎上結合了注意力機制,分別獲取詞向量、詞性、位置信息的注意力計算,是一個多注意力機制的卷積網絡,此方法在未獲取外部知識的狀態下得到了方面情感極性。Wa ng Y Q等人提出基于方面嵌入的長短期記憶網絡(LSTM with aspect embedding, AE-LSTM)和基于注意力機制的方面級長短期記憶網絡(attention-based LSTM with aspect embedding),這兩種網絡都是基于傳統長短期記憶網絡建模的,它們基于方面目標信息獲取上下文特征,結合句子隱藏狀態計算注意力向量,由此得到情感分類結果,后者比前者更加突出了方面目標信息的嵌入。參考文獻基于特定方面目標信息,結合長短期記憶網絡和卷積神經網絡,分別獲取文本長距離依賴,且通過注意力機制獲得句子表示,取得了較好的分類結果。參考文獻提出了嵌入常識知識的長短期記憶網絡(attentive LSTM with commonsense knowledge,Senti-LSTM)模型的特定方面情感分析,其中利用情感常識分析文本內容,獲得了較優的模型性能。Ta n g D U等人提出了目標依賴情緒分類長短期記憶網絡(TD-LSTM)模型和目標連接長短期記憶網絡(targetconnection LSTM,TC-LSTM)模型的方面情感分析,兩種模型都結合特定方面目標嵌入了上下文語義。參考文獻結合注意力機制提出自注意力網絡(transformer),設計了多頭注意力機制來獲取深層次注意力信息。Ruder S等人提出了分層的雙向LSTM模型來獲取句子級別的相互關系。
以上工作大多圍繞深度神經網絡和注意力機制進行研究。
3 基于方面情感分析的深度分層注意力網絡模型
本節主要介紹基于方面情感分析的深度分層注意力網絡模型的相關細節。該模型通過區域卷積神經網絡和改進的分層長短期記憶網絡獲取情感分類。圖1為基于方面情感分析的深度分層注意力網絡模型,由以下4個部分組成。
圖1???基于方面情感分析的深度分層注意力網絡模型
● 區域卷積層。根據不同方面目標將句子劃分為不同區域,對于每個獨立特定方面,卷積神經網絡將抽取局部情感信息。
● 改進的單詞層LSTM。在傳統LSTM中嵌入了句子特定方面信息,設計一條動態控制鏈,通過控制單元獲取相應方面目標遠距離情感信息,得到改進的嵌入方面信息的長短期記憶網絡(LSTM with aspects,A-LSTM)。
● 句子層LSTM。基于改進的LSTM,區域卷積層的輸出和改進的單詞層LSTM的輸出合并進入句子層LSTM,獲取基于特定方面目標的整個文本句子間的依賴關系。
● 情感輸出層。獲取分類結果。
3.1 任務定義
給定句子,包含n個單詞,其中wi為句子s的第i個元素;A為句子的特定方面表示,句子通常包含0個或若干個方面目標(方面詞);給定方面詞,包含m個單詞。通過向量化表示得到句子s的詞向量矩陣,方面目標詞的詞向量矩陣,其中d1、d2是詞向量的維度。研究目標是基于方面目標獲取句子的情感極性,基于不同方面目標將句子劃分為不同的獨立語句,依次判斷情感極性。
3.2 區域卷積層
區域卷積層將句子劃分為包含多個方面的目標子句,通過注意力機制重點關注各個方面目標及其上下文語義。本文根據句子中不同方面詞將句子分割成若干個獨立部分,由此分別獲取不同方面的情感極性。假設句子包含兩個方面詞A1、A2,根據方面詞A1和A2將句子分割成兩個獨立的目標子句:,每個子句的長度是z。若句子包含0個或1個方面目標,則只得到一個目標區域,即一個目標子句。每個獨立的目標子句進入卷積神經網絡,通過第i個卷積核進行卷積操作,得到ci,如式(1)所示:
其中,卷積核長度為l,參數和b分別為卷積核的權重矩陣和偏置項。由此得到目標子句的特征圖,如式(2)所示:
通過局部特征下采樣抽取每個特征圖最重要的特征,下采樣方法利用最大池化(max-over-time pooling)獲取局部特征,k個卷積核得到的特征如式(3)所示:
3.3 改進的單詞層LSTM
通過分層的LSTM得到了單詞層(句子內部)、句子層(句子之間)特征信息,本節介紹改進的A-LSTM,以便獲取單詞層的特征信息,同時,在改進的A-LSTM基礎上構建單詞層LSTM。
3.3.1 A-LSTM
將方面目標嵌入傳統的LSTM,在此基礎上設計動態控制鏈,通過動態控制單元獲取上下文記憶,利用注意力機制更有效地圍繞方面詞獲取情感信息。A-LSTM如圖2所示。
圖2???A-LSTM網絡
圖2中包含3條控制鏈:,第j個方面目標詞向量;,針對方面目標j,上一時刻網絡隱藏層記憶狀態;,針對方面目標j,動態控制鏈上一時刻的網絡狀態值。分別表示方面目標j的門控單元、現時刻網絡隱藏層記憶狀態、動態控制鏈現時刻網絡狀態值。動態控制鏈上的動態控制單元是門控循環單元(gated recurrent unit,GRU),其獲取上下文語義的長距離依賴信息,針對方面目標j,通過門控單元和動態控制單元計算網絡的現時刻隱藏層記憶狀態,如式(4)~(7)所示:
其中,式(4)中的是新輸入內容針對計算所得的網絡狀態,式(7)經過式(4)所得的臨時狀態和動態控制單元,最終得到現時刻網絡狀態。式(6)門控單元中第一部分計算得到圖2中的B模塊,式中第二部分計算得到圖2中的A模塊。?和σ是非線性的激活函數,式中X、Y、U、V是訓練參數,⊙為乘運算。
與傳統LSTM相比,A-LSTM嵌入了方面信息,并設計了動態控制鏈,當輸入內容與相符時,門控單元基于方面目標挖掘更深入的隱藏層記憶狀態,動態控制單元提供基于方面目標的上下文語義長距離依賴信息。隱藏層記憶狀態利用遺忘過期信息過濾無用信息,將網絡的最終隱藏層記憶狀態值降到單元距離值內。
3.3.2 單詞層LSTM
單詞層LSTM在A-LSTM基礎上獲取目標子句中與方面信息高度相關的特征表示,得到句子內部單詞間的特征關系。每一個LSTM單元的輸入包含上一時刻網絡隱藏層記憶狀態、當前時刻的新輸入值,同時還嵌入了方面信息。
LSTM在每次輸入新值后得到的隱藏層記憶狀態為,其中d為輸出向量的維度,n為狀態數。單詞注意力層計算過程如式(8)~(10)所示:
其中,Wc、bc分別為權重參數和偏置參數, hc為與輸入c相對應的隱藏層記憶狀態,計算得到注意力值ac,從而得到整個網絡的注意力值u。
3.4 句子層LSTM
通過改進的單詞層LSTM計算得到的僅是詞語間的特征信息,但針對文本的上下文句子(尤其一些語義表達不清的句子),某一詞語前后句子語義對其情感判斷尤為重要,因此本文通過句子層LSTM獲取文本句子間的依賴關系。
將區域卷積網絡的局部特征信息輸出和改進的單詞層LSTM的句子內部詞語間特征關系輸出合并,作為句子層LSTM的輸入。其中區域卷積網絡是一個序列化的矩陣,按句子在文本中的順序排序。句子層LSTM的輸入如式(11)所示:
其中,是區域卷積網絡的下采樣特征向量,u是單詞層LSTM的輸出值。
3.5 情感分類層
將句子層LSTM的輸出值作為情感輸出層的全連接網絡的輸入,計算情感分類結果,得到情感分類輸出:
其中,W為全連接層權重參數,b為全連接層偏置項,s’為句子層LSTM的輸出。本文使用反向傳播算法訓練網絡模型,通過最小化交叉熵優化模型,計算損失函數loss:
其中,D為訓練集大小,C為數據類別數,y為文本的預測類別(即情感分類輸出),為實際的類別,λ||θ||2為L2正則項。
4 實驗及結果分析
4.1 數據集
本文提出基于方面情感分析的深度分層注意力網絡模型,通過對比SemEval 2014的Laptop、Restaurant數據集以及Li D等人發布的Twitter數據集,分析模型性能。數據集中分別含有4種極性的情感:積極、消極、中立、沖突,沖突類別在數據集中所占比例較低,因此實驗中僅保留積極、消極、中立類別。數據集信息見表1。
4.2 評價指標和參數設置
模型性能以分類準確率為評價標準,使用Glove詞向量方法初始化句子單詞向量及方面向量,維度為300。采用均勻分布U(?0.1,0.1)對未登錄詞進行初始化,偏置初始化為0,訓練采用Adam優化器更新模型參數。區域卷積神經網絡目標區域的長度設置為30,窗口大小分別設置為整數2至5,每種大小的窗口的個數設為100,隨機失活率(dropout)設置為0.5。
4.3 對比模型
將本文模型分別與以下模型進行對比,以驗證本文模型的性能。
● 卷積神經網絡(CNN):基于傳統的卷積神經網絡構建模型,模型將獨立句子作為輸入,未嵌入方面目標信息,獲取文本句子內單詞間依賴關系。
● 長短期記憶網絡(LSTM):基于傳統的長短期記憶網絡構建模型,模型將獨立句子作為輸入,未嵌入方面目標信息,獲取文本句子內單詞間依賴關系。
● 基于注意力機制的卷積神經網絡(convolutional neural network based on attention mechanism,ATT-CNN):基于傳統的卷積神經網絡構建模型,模型針對特定方面加入注意力機制獲取句子內情感關注信息,將獨立句子作為輸入。
● 基于注意力機制的方面級長短期記憶網絡(attention-based LSTM with aspect embedding,ATAE-LSTM):基于傳統的長短期記憶網絡構建模型,模型針對特定方面加入注意力機制獲取句子內情感關注信息。
● 帶有長短期記憶網絡的詞嵌入(composing word embeddings with LSTM,LSTM-R)算法:基于傳統的長短期記憶網絡構建模型,模型將整體文本作為輸入,針對特定方面未關注其注意力機制。
● 交互式注意力網絡(interactive attention network,IAN):用于多層次語義分類,利用注意力機制針對特定方面獲取情感信息。
● 基于詞-方面關聯融合的長短期記憶網絡(LSTM based on word-aspect association fusion,AF-LSTM):利用一個連接層,通過注意力機制結合方面信息獲取情感分類。
● 支持向量機(support vector machines,SVM):將支持向量機作為分類器來抽取特征。
4.4 實驗結果
本文模型(HANMAS)同上述模型的對比結果見表2。
表2中數據是不同模型在3個數據集上的實驗結果,數據集中包含積極、中立、消極3種類別,分析可得三分類實驗的分類準確率普遍低于以往文獻中的僅包含積極、消極的二分類結果。幾種對比模型中基于循環神經網絡的模型(LSTM、ATAE-LSTM)優于基于卷積神經網絡的模型(CNN、ATT-CNN);在LSTM上嵌入注意力機制的模型(ATT-CNN、ATAE-LSTM、IAN)的分類效果好于單一的傳統模型;嵌入方面信息分別獲取情感分類的模型(ATT-CNN、ATAE-LSTM、LSTM-R)的分類準確率有顯著提高;將整體文本作為輸入的模型(LSTM-R)獲取了句子間的依賴關系,分類準確率明顯優于將獨立句子作為輸入的模型(LSTM)。
本文提出的模型性能優于幾種對比模型。本文提出的模型針對特定方面通過注意力機制獲取情感信息,通過改進的分層LSTM深層次地獲取句子內部局部特征和句子時序關系以及句子之間的依賴關系,對比同樣結合方面信息的網絡模型,在數據集Restaurant上取得接近SVM的分類性能,在數據集Laptop和Twitter上得到了較好的分類效果。本文提出的模型層次復雜,算法復雜度較一般模型有所提高,模型通過增加模型層次和算法復雜度得到了更高的準確率。
4.5 A-LSTM性能
本節針對改進的A-LSTM進行對比實驗,在數據集Restaurant上分別選取2個、4個、6個方面目標嵌入網絡模型,驗證模型的二分類結果,結果如圖3所示。隨著方面目標數量的增多,模型分類準確率能夠保持平穩,說明當面對多方面目標文本時,模型有較好的擴展性能,尤其當分類數量增多時,模型分類準確率優于對比模型。
圖3???嵌入不同數量方面目標的分類準確率對比
A-LSTM在實驗中經過若干次迭代,通過計算平均損失值判斷網絡性能,結果如圖4所示。隨著迭代次數的增加,兩種模型的平均損失逐漸降低,但改進后的A-LSTM模型性能較好,在多次迭代下模型收斂的速度較快。
圖4???收斂速度對比
5 結束語
本文基于方面情感分析,提出結合區域卷積神經網絡和改進的分層LSTM的深度分層注意力網絡模型,模型通過卷積神經網絡保留文本局部特征信息和不同句子時序關系,利用分層注意力LSTM獲取句子內部和句子間的情感特征,其中通過添加特定方面信息并設計一個內部動態控制鏈,對傳統LSTM進行了改進。經過實驗對比,驗證了本文模型的有效性,與基于方面情感的傳統深度網絡模型和基于注意力機制的網絡模型相比,文本情感分類準確率得到了有效提升。對于包含跨領域詞匯和網絡用語句子的方面情感分析,本文模型情感分類效果有待提高,此問題將是下一步的研究內容。
作者簡介
宋婷(1984-),女,太原科技大學計算機科學與技術學院中級實驗師,主要研究方向為人工智能與數據挖掘 。
陳戰偉(1984-),男,中國移動通信集團山西有限公司高級工程師,主要研究方向為人工智能與數據挖掘 。
楊海峰(1980-),男,博士,太原科技大學計算機科學與技術學院教授,主要研究方向為人工智能與數據挖掘 。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的基于分层注意力网络的方面情感分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CyberSecurityLearni
- 下一篇: 【CyberSecurityLearni