社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)
前文說到根據(jù)貝葉斯過濾器篩選出的評(píng)論將其中被分類為有價(jià)值評(píng)論的排名前50條拿出來作人工標(biāo)注,這樣就得到了一個(gè)小評(píng)論樣本庫(kù)。于是我們面對(duì)的問題就變成了一個(gè)典型的部分監(jiān)督學(xué)習(xí),又稱LU學(xué)習(xí)。
LU學(xué)習(xí)的全稱是Labeled Examples & Unlabeled Examples,和監(jiān)督學(xué)習(xí)相比,LU學(xué)習(xí)不僅會(huì)把那些已標(biāo)引的數(shù)據(jù)用于訓(xùn)練分類器,還會(huì)把未標(biāo)引的數(shù)據(jù)中的有價(jià)值信息挖掘出來加以充分利用。
解決LU學(xué)習(xí)的方法可以在Web數(shù)據(jù)挖掘這本書的第5章中找到,在書中作者描述了一種EM算法+貝葉斯分類器的解決方案,利用EM算法不停地迭代,改進(jìn)貝葉斯分類器中的參數(shù)。在項(xiàng)目中我最終采用了EM算法+KNN分類器的辦法。對(duì)于每個(gè)未標(biāo)引的評(píng)論,找出已標(biāo)引評(píng)論中與其最相近的10條,然后根據(jù)這10條評(píng)論的標(biāo)引情況來給這條評(píng)論打分(要打兩個(gè)分:贊同和反對(duì))根據(jù)打分的比值來分類。如果比值接近于,這不標(biāo)引。此外,如果10條最鄰近評(píng)論中有非人工標(biāo)引的評(píng)論,這條評(píng)論的權(quán)值為0.5。
小竅門:
最后我做些經(jīng)驗(yàn)之談,當(dāng)人們發(fā)表評(píng)論時(shí)往往會(huì)用 “雖然……但是……” 或 “……不過……” 或類似的轉(zhuǎn)折結(jié)構(gòu)來更加全面地表述自己的觀點(diǎn)。但是這種評(píng)論的論點(diǎn)往往在后半句而且前半句表達(dá)的觀點(diǎn)與真正的觀點(diǎn)是相反的,所以當(dāng)程序識(shí)別除了這樣的結(jié)構(gòu)后,應(yīng)該主動(dòng)過濾掉前半句,防止混淆分類器。
轉(zhuǎn)載于:https://www.cnblogs.com/rav009/p/5131097.html
總結(jié)
以上是生活随笔為你收集整理的社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OSCache使用指南
- 下一篇: 养老保险余额在哪里查询