文本分类中的特征词选择算法系列科普(前言AND 一)
(轉載請注明出處,作者:finallyliuyu)
前言:
經了解,園子里有很多已經工作,但是對信息檢索和自然語言處理感興趣的同仁,也有很多相關領域的從業者。目前本人正在從事文本特征選擇方面的研究。所以打算寫一系列有關此方向的科普型博客,和大家分享見解。也希望在算法的理解方面和業內人士多多交流。
此系列的計劃是介紹各種特征詞選擇方法,參考自Yiming Yang 1997年的論文"A comparative Study on Feature Selection in TextCategorization"。
更確切地說是采用中文語料庫(語料庫來源:搜狗開放語料庫?要特此對搜狗實驗室的無私奉獻表示感謝)對Yiming Yang此篇論文中的見解進行實際驗證。???
?? 陸游有一句詩"紙上得來終覺淺,覺知此事要躬行"。所以才有了此系列博客。此系列博客將不僅介紹各種特征詞選擇算法的效率,還會提供已經處理好的語料庫(libsvm數據格式 注語料庫使用者請注明語料來源:網友finallyliuyu提供 )供研究者,學習者下載。寫此博客有兩個目的:一:像我一樣的初級學習者,不用在耗盡眼力從黑白色的教科書、論文中那些沒有顏色區分的圖中尋找關于各種特征詞選擇方法效率的蛛絲馬跡了。在這一系列博文中,你將看到彩色的圖片,得到對此類問題的第一手直觀的理解。更重要的,你也有下載語料庫,自己調用libsvm分類,調用matlab畫圖,來體驗下各種特征詞選擇算法的"魅力"。二。我們也有開源的libsvm格式數據,以后的libsvm初級使用者,將不再只局限于它的網站上給出的那些分類材料。三,所有的語料庫由于博客園上傳能力有限,將放在csdn下載頻道,無任何積分即可下載
? 鑒于本人理工科背景出身,且文筆拙劣,有敘述不清楚的地方,希望大家指正。同時也希望和歡迎大家對我的博客內容提出異議,批評和指正。
(一) 特征詞選擇是否有用?
有人(包括我自己在內)曾懷疑那些所謂的特征詞選擇算法是否真的能在減少特征維度的前提下保持或提高分類準確率?是不是特征詞數目越多分類準確率越高?
請看如下幾張圖表。
?N:代表文檔集規模,M代表特征維數
不采用任何特征詞選擇算法,從詞袋子中順序取M個詞作為特征詞的5折交叉驗證準確率曲線如下圖(1,2)
?
?
?
圖三運用IG法選取M維特征詞
??? 從圖1,圖2可以看出? :
從上面兩幅圖可以看出:在順序選取M個特征詞(即先從第一類形成的詞袋子中選詞,若M>第一類形成的詞袋子中的詞的總數,余下的部分從第二類形成的詞袋子中選)的時候,i)最低分類準確率在50%以上。這個不難理解,因為最壞的情況是所選擇的M個特征詞都在第一類訓練文檔集所形成的詞袋子中那么這些詞能夠保證對屬于第一類的測試文檔有良好的預測作用;ii)隨著特征詞數目的增加,分類準確率總體呈上升趨勢,理由“i)”中的分析,但是總體準確率不高,在特征維數為3000的時候,最高準確率為(91 +-1)%。
從圖3可以看出:
特征詞選擇算法是有效的,經過特征詞選擇算法,選取的特征詞能夠使分類準確率得到提高 ;并不是特證詞維數越高,分類準確率越高。從圖2可以看出,當文檔集規模》200時,分類準確率隨著特征詞維數的增加呈平穩下降趨勢。
?
總結
以上是生活随笔為你收集整理的文本分类中的特征词选择算法系列科普(前言AND 一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 攻城掠地金色兵书出处 傲世堂攻城掠地唯一
- 下一篇: 方舟手游雷龙怎么训 方舟生存进化