一种情感判别分析体系在汽车品牌舆情管理中的应用
一種情感判別分析體系在汽車品牌輿情管理中的應(yīng)用
宋云生
深圳聯(lián)友科技有限公司,廣東 深圳 518031
摘要:品牌輿情管理涉及文本、語音等自然語言產(chǎn)物的處理,如挖掘文本內(nèi)涵的情感、觀點等并對其量化,才能進一步分析品牌所處的輿論環(huán)境。對自然語言中情感的量化即情感判別分析,針對傳統(tǒng)的基于詞典的情感分析和基于監(jiān)督模型的情感分析存在的不足,提出了一種新的情感分析系統(tǒng),并結(jié)合樸素貝葉斯分類算法,提高了情感分析的準(zhǔn)確率,并增強了量化分析情感強度的能力。經(jīng)測試,提出的文本情感分析引擎的情感判別準(zhǔn)確率高于常見的分析方法,且不具有非常明顯的行業(yè)特異性。
關(guān)鍵詞:情感分析;監(jiān)督模型;樸素貝葉斯;自然語言處理
doi:10.11959/j.issn.2096-0271.2017061
論文引用格式:宋云生. 一種情感判別分析體系在汽車品牌輿情管理中的應(yīng)用[J]. 大數(shù)據(jù), 2017, 3(6): 55-64.
SONG Y S. Application of an emotion discriminant analysis system in the management of automobile brand[J]. Big Data Research, 2017, 3(6): 55-64.
1? 引言
隨著互聯(lián)網(wǎng)以及各類新興網(wǎng)絡(luò)社交媒體的快速發(fā)展與普及,由用戶發(fā)表的文字信息也在暴增,如論壇帖子、微博、博客、產(chǎn)品評論等。如何有效地對這些海量文本信息進行挖掘,識別其中的情感傾向,并加以合理有效地利用,是非常值得探討的問題。情感分析又稱傾向性分析,是人們對事物以及事物的屬性持有的意見、情緒和情感的計算研究[1]。事物可以是產(chǎn)品、服務(wù)、組織、個人、事件、問題或者話題。情感分析也可以被定義為通過自然語言處理(natural language processing,NLP)技術(shù)從文本、演講、微博等數(shù)據(jù)源中自動挖掘態(tài)度、觀點、意見和情緒的過程[2]。文本情感分析就是分析一段文字的情感傾向,作為輿情監(jiān)控的基礎(chǔ)工作,用途廣泛。社交網(wǎng)絡(luò)越來越火,“意見領(lǐng)袖”越來越多,允許用戶對商品和服務(wù)評價打分的站點更是如雨后春筍,用戶的評價和建議可以全網(wǎng)傳播。這些文本類型的數(shù)據(jù)毫無疑問是精準(zhǔn)營銷的動力來源。企業(yè)可以根據(jù)情感分析建立自己的數(shù)字形象,識別新的市場機會,做好市場細分,進而推動產(chǎn)品成功上市,但抓住這些評論的價值部分也是企業(yè)的巨大挑戰(zhàn)。政府同企業(yè)一樣,需要通過情感分析監(jiān)控、緩解、引領(lǐng)輿情,消弭社會矛盾,上述正是情感分析的應(yīng)用背景。
但與如此重要的背景背道而馳的是中文情感分析系統(tǒng)的弱勢,常見的情感分析分為基于詞典的情感分析和基于監(jiān)督模型的情感分析。基于詞典的情感分析,顧名思義,非常依賴于情感詞典的構(gòu)建,KuLW等人[3]和KajiN等人[4]對情感詞典的構(gòu)建開展了深入的研究。通常先將情感詞分為正向(褒義)和負向(貶義),然后統(tǒng)計一條待分析的中文文本分詞的正向詞個數(shù)和負向詞個數(shù),如果正向詞個數(shù)大于負向詞個數(shù),則這條文本屬于情感正向,否則屬于情感負向。有些研究者對情感詞典進行了人工加權(quán),比如“愛”和“喜歡”的權(quán)重不一樣,人工給予“愛”更高的權(quán)重。但是無論怎么改變,這種分析方式都存在以下缺陷:首先,準(zhǔn)確率非常低,一般為50%左右,幾乎不能支撐輿情監(jiān)控要求;其次,人工定義情感詞的正負傾向或權(quán)重,工作量巨大,而且非常武斷;最后,這種方式對于否定句和程度副詞加強的語句幾乎無效,從而喪失了分析情感細膩性(程度)的能力。另一種是基于監(jiān)督模型的情感分析,即通過人工標(biāo)注一個訓(xùn)練集(訓(xùn)練集的每一條文本都要人工將其分為情感正向或情感負向),然后使用訓(xùn)練集訓(xùn)練模型,模型訓(xùn)練完成后,預(yù)測待分析文本。這種方法雖然基于大量的訓(xùn)練集暫時提高了準(zhǔn)確率(一般75%左右),但是標(biāo)注訓(xùn)練集等如此浩繁的工作讓使用者望而卻步,另外,人工標(biāo)注訓(xùn)練集的粒度導(dǎo)致了這種方式同樣不具有分析情感細膩性的能力,或者能力較弱。
本文構(gòu)建了一種新的情感分析系統(tǒng),解決了這些比較具體的問題,化繁就簡,提高了情感分析的準(zhǔn)確率,并具有細膩分析情感的能力,為各大行業(yè)的輿情分析提供了一種新的實踐路徑。
2 ?輿情管理在各個行業(yè)的需求
早在互聯(lián)網(wǎng)普及之前,人們就讓朋友推薦一個汽車修理工或者在地方選舉投票給誰,又或者向消費者咨詢買什么樣的洗碗機。“別人怎么想在我們做決策的過程中是一個非常重要的信息”[5]。隨著Web2.0平臺的爆發(fā)式增長,博客、論壇、點對點網(wǎng)絡(luò)等其他各種類型的社交媒體的出現(xiàn),個人用戶在網(wǎng)上表現(xiàn)出對產(chǎn)品和服務(wù)的興趣(積極或消極)會產(chǎn)生一些潛在的影響,通過互聯(lián)網(wǎng)的傳播放大,能夠產(chǎn)生前所未有的影響力,商品供應(yīng)商也越來越關(guān)注網(wǎng)絡(luò)用戶的評論。目前輿情分析已滲透到生活的方方面面,幾乎在各大行業(yè)中都有應(yīng)用,包括政府、高校、企業(yè)、媒體、醫(yī)療、電力等領(lǐng)域。
政府對輿情的分析主要關(guān)注民生民意、行業(yè)動態(tài)以及危機公關(guān),如通過分析網(wǎng)絡(luò)上的評論可以非常準(zhǔn)確地了解大眾對政策的理解和情感傾向。德國慕尼黑大學(xué)的研究表明,推特(Twitter)上的信息能夠非常準(zhǔn)確地反映選民的政治傾向,通過分析2009年德國大選期間選民涉及政黨和政客的10萬條推特,結(jié)論是推特的信息能夠預(yù)示大選的結(jié)果,其準(zhǔn)確性不亞于傳統(tǒng)的民意調(diào)研[6]。
2009年7月,一則《應(yīng)屆畢業(yè)生怒問:誰替我簽的就業(yè)協(xié)議?注水的就業(yè)率!》[7]刷爆網(wǎng)絡(luò),“被就業(yè)”獲得了社會各界的廣泛關(guān)注。通過網(wǎng)絡(luò)輿情分析,能夠獲取廣大師生對高校就業(yè)的觀點和建議,可以監(jiān)測社會民眾的情感走向,及時采取相應(yīng)的政策引導(dǎo)輿論向有利于構(gòu)建和諧健康的社會主義社會發(fā)展。
輿情分析在企業(yè)中的運用主要包括兩個方面:品牌危機管理和營銷管理。品牌危機是指突然發(fā)生的并能對企業(yè)聲譽和生產(chǎn)經(jīng)營活動構(gòu)成重大威脅或造成破壞和損失的緊急事件[8]。通過對社會媒體的監(jiān)測和分析,對危機發(fā)生前的環(huán)境進行監(jiān)測和預(yù)警,第一時間掌握輿論導(dǎo)向,制定相應(yīng)的對策和方法化解危機。目前企業(yè)越來越熱衷于使用用戶針對產(chǎn)品留下的評論內(nèi)容等數(shù)據(jù),幫助改進市場營銷、品牌定位、產(chǎn)品開發(fā)和制定相應(yīng)的優(yōu)惠政策等活動。例如,北京小米科技有限責(zé)任公司想知道客戶對他們的新機型的評價,在社交媒體和數(shù)據(jù)挖掘興起之前,他們只能通過市場調(diào)研的方式解決。而數(shù)據(jù)分析則可以抓取消費者在各大消費網(wǎng)站(如亞馬遜、京東、天貓、社交媒體)留下的評論數(shù)據(jù),通過分析這些文本內(nèi)容,從而獲知消費者對某個新機型的情感傾向。通過機器學(xué)習(xí)量化文本中消費者對品牌或產(chǎn)品屬性喜好的數(shù)據(jù)挖掘方式,即情感分析。情感分析作為一種數(shù)據(jù)挖掘的方式,可以用于采集競爭對手的競爭優(yōu)勢,例如企業(yè)可以輕易地跟蹤社交媒體的情感傾向和社交媒體對競爭對手的情感傾向,了解消費者對競爭品牌的印象及對其產(chǎn)品的情感傾向。另外,情感分析的指數(shù)和結(jié)果還可以作為變量應(yīng)用到其他數(shù)據(jù)挖掘項目,例如預(yù)測用戶流失的概率時就可以添加情感指數(shù)作為變量。
目前,情感分析仍然面臨著很多挑戰(zhàn),其中主要包括:人們表達態(tài)度的方式非常復(fù)雜,很難識別真正的情感傾向;另外,僅僅使用詞匯并不能非常準(zhǔn)確地識別一條文本表達的情感傾向;一些修辭手法(如反諷、欲揚先抑等)也會給情感分析造成困難。
3 ?情感分析的種類和方法介紹
一般情感分析分為兩個層次:主/客觀分析(subjectivity/objectivity identification)和情感/主體分析(feature/aspect-based sentiment analysis)。前者主要分析一個文本或片段是主觀表述還是客觀表述,需要注意的是在做這類分析時同樣面臨挑戰(zhàn),因為具體的語境可能會改變句子的意思,原本的主觀評價可能就變成了客觀描述,如“我買的錘子手機外表像廣告一樣光鮮,但速度就像他的名字一樣,就是個錘子”。而情感/主體分析將文本中表現(xiàn)的情感和具體的主體聯(lián)系起來,即確定情感的歸屬,顯然 后者對文本情感的分析更加細膩。
目前情感分析方法主要分為兩大類:基于詞典的情感分析方法、基于機器學(xué)習(xí)的情感分析方法[9]。
基于詞典的情感分析法起源于基于語法規(guī)則的文本分析,方法比較簡單純樸,首先需要具有語法敏感性的專業(yè)人士構(gòu)建情感分析的詞典:正向情感詞典和負向情感詞典,即將某語言中用于表達情感的詞匯分為兩個類別,然后比對文本中正負情感詞的個數(shù)、頻度,評估文本的情感傾向,這種方法非常容易理解。Taboada M等人[10]通過創(chuàng)建帶有語義傾向標(biāo)注的詞典(極性和強度),并應(yīng)用于極性分類任務(wù),即可判斷一個文本是正向還是負向。張成功等人[11]通過構(gòu)造極性詞典,包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典以及修飾詞詞典,深入探究了修飾詞對極性詞的影響,提出一種基于極性詞典的情感分析方法,并驗證了該方法的有效性。然而情感詞也分輕重緩急,比如喜歡和愛雖然都是正向,但其程度不一樣,因此根據(jù)語言專家的分析,給予情感詞不同的情感級別或權(quán)重,即對上述分析方法的改進,毫無疑問這種方法包含一定的語法分析的成分,谷歌翻譯的早期版本就是基于語法的方式,其效果可見一斑。
基于機器學(xué)習(xí)的情感分析過程首先制作一個規(guī)模龐大的訓(xùn)練集,人工標(biāo)注文本的正負向,然后通過機器學(xué)習(xí)或算法等方式訓(xùn)練模型,得出模型后,再用來識別新文本的情感傾向,比較像垃圾郵件的分類方法。首先精挑一些垃圾郵件和正常郵件讓模型學(xué)習(xí),然后再將模型用于垃圾郵件的分選。基于機器學(xué)習(xí)的情感分析方法本質(zhì)上是一個監(jiān)督分類的方法,當(dāng)然現(xiàn)在也有非監(jiān)督分類的嘗試。機器學(xué)習(xí)技術(shù),如樸素貝葉斯(naive Bayes)、最大熵(maximum entropy)、支持向量機(support vector machine,SVM)等已經(jīng)成功運用在情感分析中。Firmino A A等人[12]進行了一個案列研究,對比SVM和樸素貝葉斯分類器的性能,結(jié)果表明SVM性能更優(yōu)。孫建旺等人[13]提出基于特征極性值的位置權(quán)重計算方法,將SVM作為機器學(xué)習(xí)模型,能夠有效地對微博文本進行情感分類。關(guān)雅夫等人[14]提出了基于主動學(xué)習(xí)的微博情感分析,并結(jié)合SVM進行二級分類,結(jié)果表明該方法在提高準(zhǔn)確率、降低過擬合及錯誤級聯(lián)等方面有著良好的表現(xiàn)。樊娜等人[15]通過對文本結(jié)構(gòu)和情感表達的特點進行分析,提出一種基于K-近鄰的文本情感分析方法,實驗表明該方法優(yōu)于傳統(tǒng)的機器學(xué)習(xí)。
4 ?情感分析的新分析體系介紹
本文提出了一種新的中文文本情感分析系統(tǒng),主要創(chuàng)造了情感分析訓(xùn)練集的標(biāo)注方式、加權(quán)情感詞典的生成方式、漢語言語法規(guī)則的調(diào)整方式及基于樸素貝葉斯理論的情感得分計算方法。文本情感傾向值計算主要包括以下幾個步驟:文本預(yù)處理;文本特征提取,主要包括:提取文本情感主體、情感詞、情感詞前后的程度詞和否定詞;加權(quán)情感詞典構(gòu)建,情感詞匹配;漢語規(guī)則構(gòu)建,調(diào)整情感文本矩陣;模型訓(xùn)練;文本情感值計算。
4.1 系統(tǒng)分析流程
文本a進入系統(tǒng)后,首先對文本a進行分詞,然后將文本分出來的詞匯與加權(quán)情感詞典中的詞匯進行匹配,這樣不僅篩選出了文本a中包含的情感詞,而且給情感詞匯添加了正負向情感權(quán)重,即獲得了文本a帶有權(quán)重的情感詞矩陣。為了分析文本a情感的強度,本文根據(jù)漢語語法構(gòu)建了兩個比較基本但很重要的規(guī)則:程度副詞加權(quán)規(guī)則和否定詞逆轉(zhuǎn)規(guī)則,用于調(diào)整文本的情感詞矩陣,將經(jīng)過漢語言規(guī)則調(diào)整后的情感詞矩陣輸入算法模型,計算情感得分。情感得分的區(qū)間為[0,1],越靠近0,負向情感越強;越靠近1,正向情感越強。整個流程如圖1所示。
圖1 情感分析系統(tǒng)流程
4.2 加權(quán)情感詞典構(gòu)建
隨著漢語的演化,情感詞還在不斷增加。在文本分析的過程中,筆者積累了大量的情感詞,并構(gòu)建了情感詞典,大約包括中文情感詞20 000個左右。原始的情感詞典見表1(其中1代表正向詞匯,-1代表負向詞匯),其僅僅是武斷地將情感詞匯分為正向和負向,這樣的詞典除了帶有主觀性以外,而且無法滿足分析情感程度的目的,所以需要一種更加快速、客觀的加權(quán)方式。
表1 原始的情感詞典樣例
在構(gòu)建加權(quán)情感詞典之前,首先要有一個標(biāo)注的情感分析文本集,這本來是一個需要人工標(biāo)注的過程,工作量巨大,而且具有行業(yè)局限性。在絕大多數(shù)情況下,人們用于表達情感的詞匯是相似的,僅僅有個別詞匯具有行業(yè)特征。而且現(xiàn)在有大量的網(wǎng)站留下了用戶的評論數(shù)據(jù),有些網(wǎng)站,如汽車行業(yè) 的汽車之家要求用戶發(fā)表口碑評論時分為兩個部分:最滿意的部分和最不滿意的部分,筆者抓取了大量的評論,并將“最滿意的部分”標(biāo)注為正向文本,把“最不滿意的部分”標(biāo)注為負向文本(類似的方法還可以使用用戶評分進行文本標(biāo)注),加上其他研究者已經(jīng)公布的標(biāo)注文本,共獲得了大約30萬條正負向文本標(biāo)注訓(xùn)練集,通過這種批量方法可以節(jié)省大量的標(biāo)注時間,而且擴大了文本的行業(yè)來源,還可以隨著數(shù)據(jù)量的增加持續(xù)更新情感分析文本集,進而更新加權(quán)情感詞典。
有了標(biāo)注訓(xùn)練集,就需要基于標(biāo)注訓(xùn)練集對情感詞典加權(quán)。
情感加權(quán)規(guī)則:一個情感詞在正向文本集出現(xiàn)的文檔頻率(document frequency,DF)作為它的正向權(quán)重,在負向文本集出現(xiàn)的文檔頻率作為它的負向權(quán)重,所謂DF,即包含某詞的文檔數(shù)/語料庫的文檔總數(shù)。
對于一些一般人無法判斷的中性詞,也能非常快速、合理地獲得正負向情感權(quán)重,因此依據(jù)以上這種數(shù)據(jù)驅(qū)動的規(guī)則獲得情感詞的權(quán)重,不僅工作量銳減,而且更加客觀(見表2)。通過以上方法獲得了加權(quán)情感詞典。
表2 加權(quán)情感詞典樣例
4.3 構(gòu)建漢語規(guī)則
本文系統(tǒng)構(gòu)建了兩種漢語語法規(guī)則,其一用于處理程度副詞出現(xiàn)的情況,比如“我非常喜歡夏天”;其二用于處理否定詞出現(xiàn)的情況,比如“我不喜歡夏天”。一般的基于詞典和監(jiān)督模型的情感分析系統(tǒng)基本上無法有效處理上述兩種現(xiàn)象,而且上述現(xiàn)象是在漢語中非常常見的情感表達方式,所以針對上述兩種情況本文提出了兩套規(guī)則,按照先后順序調(diào)整情感詞矩陣即可。
4.3.1 程度副詞加權(quán)規(guī)則
程度副詞加權(quán)規(guī)則要求首先準(zhǔn)備一張程度詞加權(quán)詞典,漢語中的程度副詞比較少,通過人工整理并給予相應(yīng)的權(quán)重可得部分詞典,見表3。
表3 程度副詞加權(quán)詞典樣例
程度副詞加權(quán)規(guī)則:如果情感詞前后不遠處(可以根據(jù)標(biāo)點符號和需求自定義)出現(xiàn)了任意一個程度副詞,那么在該情感詞的正負權(quán)重中,較大者加倍。例如“我非常不喜歡喝茶”,“喜歡”這個詞的正向情感權(quán)重為0.05,負向情感權(quán)重為0.02,它的前方出現(xiàn)了“非常”程度副詞,所以“喜歡”在本文本里的正負向權(quán)重就變成了0.1和0.02。
4.3.2 否定詞逆轉(zhuǎn)規(guī)則
一個文本的情感詞矩陣經(jīng)過程度副詞加權(quán)規(guī)則調(diào)整后,需要根據(jù)否定詞規(guī)則進一步調(diào)整,本文構(gòu)建了否定詞逆轉(zhuǎn)規(guī)則。所謂否定詞逆轉(zhuǎn)規(guī)則,即如果情感詞前面不遠處(可以根據(jù)標(biāo)點符號和需求自定義)出現(xiàn)了否定詞,且否定詞的個數(shù)為奇數(shù),那么該情感詞的正負權(quán)重進行一次對調(diào)。例如“我非常不喜歡喝茶”,“喜歡”這個詞的正負向情感權(quán)重經(jīng)過程度副詞加權(quán)后變成了0.1和0.02,但它的前方出現(xiàn)了“不”字且為否定詞,并只出現(xiàn)了1次,所以“喜歡”的正負向權(quán)重就變成了0.02和0.1。那么經(jīng)過調(diào)整后,“我非常不喜歡喝茶”的文本情感詞矩陣就變成了表4。
表4 文本情感詞矩陣樣例
4.4 構(gòu)建模型
根據(jù)上文的基礎(chǔ)詞庫和規(guī)則,可以獲得任何一條文本的情感詞矩陣,稍作矩陣變換,就可以作為構(gòu)建各種監(jiān)督型機器學(xué)習(xí)算法的輸入數(shù)據(jù),得出文本情感值,加上強大的訓(xùn)練集標(biāo)注方法,各種監(jiān)督模型(隨機森林、SVM、邏輯回歸等)均可以使用上述矩陣進行模型訓(xùn)練和測試,準(zhǔn)確率相較普通系統(tǒng)大幅提高。經(jīng)過程序測試,本文選擇了樸素貝葉斯分類器算法,并集合汽車行業(yè)特有的標(biāo)注數(shù)據(jù),應(yīng)用于汽車行業(yè)品牌情感分析。
5 ?情感分析在汽車行業(yè)品牌輿情管理的應(yīng)用
本文僅挑選樸素貝葉斯算法作為分類算法演示分類體系,具體實現(xiàn)流程如圖2所示。所謂樸素貝葉斯分類器在本文中可以通俗地進行如下解釋:一條文本中的所有情感詞在正向文本中出現(xiàn)的概率連乘積如果大于這條文本中所有情感詞在負向文本中出現(xiàn)的概率連乘積,則這條文本屬于正向,否則屬于負向,計算式如下:
其中,a表示文本的情感詞正負向權(quán)重,y代表文本屬于正負向分類的概率。
圖2 汽車行業(yè)的情感分析流程
5.1 實驗數(shù)據(jù)采集
本文通過網(wǎng)絡(luò)爬蟲技術(shù)抓取發(fā)表在汽車之家、 鳳凰汽車網(wǎng)、太平洋汽車網(wǎng)和新浪汽車網(wǎng)的數(shù)據(jù)約2 100萬條,取數(shù)周期為2016年1月1日—4月21日。在進行情感分析之前,首先對獲取的數(shù)據(jù)集進行數(shù)據(jù)清洗[16,17],主要包括刪除特殊符號、分詞、去除停用詞,然后對文本屬性特征進行提取,去除不能反映文本主題的詞語。選擇35萬條口碑?dāng)?shù)據(jù)作為標(biāo)注數(shù)據(jù)集,口碑?dāng)?shù)據(jù)具有兩個非常明顯的模式片段:最滿意的一點和最不滿意的一點。本文將最滿意的一點作為情感正向標(biāo)注,將最不滿意的一點作為負向標(biāo)注,從而豐富了數(shù)據(jù)標(biāo)注,增加了行業(yè)特異性。
5.2 加權(quán)情感詞典構(gòu)建
本文將知網(wǎng)、清華大學(xué)、臺灣大學(xué)發(fā)布的基礎(chǔ)情感詞典作為基礎(chǔ)詞典,補充汽車行業(yè)情感詞,通過訓(xùn)練汽車行業(yè)評論文本,整理出情感詞詞典。部分情感詞典見表5。
表5 情感詞典
5.3 實驗結(jié)果
以“我非常不喜歡渦輪增壓,保養(yǎng)貴”這句評論為例。第一步,通過數(shù)據(jù)清洗后,使用分詞結(jié)果與加權(quán)情感詞典進行匹配,獲得帶有權(quán)重的情感詞矩陣,流程如圖3所示。
圖3 基于樸素貝葉斯算法情感分析流程示例
第二步,在帶有權(quán)重的情感詞矩陣中,根據(jù)情感詞的位置,在原文本中向前或向后查找程度副詞。如果找到程度副詞,則根據(jù)規(guī)則調(diào)整情感詞矩陣,如本例在“喜歡”的前面找到了程度副詞“非常”,且“喜歡”的正(pDF)負(nDF)情感傾向中較大者為pDF,所以將其乘以程度副詞“非常”的權(quán)重2,其nDF不作改變;情感詞“保養(yǎng)貴”前后均未找到程度副詞,所以其權(quán)重不作調(diào)整,這樣就獲得了調(diào)整后的情感詞矩陣1。
第三步,調(diào)整后的情感詞矩陣1中,根據(jù)情感詞的位置,在原文本中向前查找否定詞,如果找到否定詞,則根據(jù)規(guī)則調(diào)整情感詞矩陣,如本例在“喜歡”的前面找到了否定詞“不”,“喜歡”的正負情感傾向進行逆轉(zhuǎn),即將喜歡的pDF替換為nDF,nDF替換為pDF,雙方互換在情感詞矩陣中的位置;情感詞“保養(yǎng)貴”前面沒找到否定詞,所以其權(quán)重不作調(diào)整,這樣就獲得了調(diào)整后的情感詞矩陣2。
最后根據(jù)調(diào)整后的情感詞矩陣2,構(gòu)建樸素貝葉斯分類器計算情感得分,求出所有情感詞pDF的乘積,然后計算其與所有情感詞pDF的乘積加上所有情感詞nDF的乘積之和的商值作為情感得分,可以得到文本的情感得分為0.01,較嚴(yán)重的負向傾向。
經(jīng)測試集測試,樸素貝葉斯文本情感分析引擎的情感判別準(zhǔn)確率較高,達到86.7%,并能準(zhǔn)確應(yīng)對否定句、雙重否定及程度副詞等在網(wǎng)絡(luò)語言中較為普遍的句法、語法類型。
6 ?結(jié)束語
本文提出了一種獲得情感特征詞權(quán)重的量化方法,并設(shè)計了兩個比較常見的漢語規(guī)則,用于調(diào)整情感權(quán)重,結(jié)合常見的監(jiān)督型機器學(xué)習(xí)算法取得了86.7%的分類準(zhǔn)確率。對比其他企業(yè)落地實施的情感分析引擎,本系統(tǒng)取得了不錯的成績。系統(tǒng)弱化了行業(yè)特異性,更加易于移植到其他行業(yè),整個分析體系弱化了人工干預(yù)和標(biāo)注的工作,更加符合企業(yè)應(yīng)用減少人工的需求,就其分析邏輯而言,很容易與自然語言理解領(lǐng)域其他研究模塊結(jié)合,比如與句法解析結(jié)合,解決情感歸屬問題。
情感分析正在向語義級別發(fā)展,但其在企業(yè)應(yīng)用中的需求至少滿足兩個方面:其一,情感越來越細膩;其二,情感歸屬問題。情感越來越細膩,包括實際情感的細化,但隨著品牌輿情管理的細化,可能需要更加細粒度的情感分類,比如喜歡、高興、傷心、厭惡、憎恨等。每一種情感背后蘊含的看法和觀點存在很大的不同,其中參考文獻[18,19]對情感分析進行了更加細膩的探索研究。不同文本的情感程度是不一樣的,而且其帶來的社會影響也不同,因此除了區(qū)分情感的細分分類以外,企業(yè)需要更加細膩的情感程度衡量方式,即傳統(tǒng)的二分類問題或多分類問題,轉(zhuǎn)化為分類和連續(xù)的程度衡量問題。
除了細膩的情感分析以外,情感歸屬也是一個亟待解決的問題。情感歸屬正逐步深入自然語言理解的句法分析領(lǐng)域,它不僅要求句法分析做得優(yōu)秀,而且情感分析做得也同樣優(yōu)秀,才能做到準(zhǔn)確的情感歸屬。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
宋云生(1985?),男,深圳聯(lián)友科技有限公司數(shù)據(jù)挖掘工程師,主要研究方向為自然語言理解及深度學(xué)習(xí)。
?
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的科技期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的一种情感判别分析体系在汽车品牌舆情管理中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CyberSecurityLearni
- 下一篇: 【CyberSecurityLearni