降维技术zz
降維技術
文本分類的一個核心難題就是特征空間的高維性,一個文檔集中的特征項動輒就是上萬維,這么高的維數特征不僅帶來極高的計算復雜度,產生維度災難,也給分類過程帶來了大量的噪音,且容易產生過度擬合的問題,因而有必要簡化原始的特征集,這種簡化技術就是降維技術。 降維技術主要分成兩大類:特征選擇和特征提取。
特征選擇又稱獨立評估法,其目的是濾除攜帶信息量較少的詞,只保留對分類貢獻較大的詞。 在特征選擇時一般都是利用某種評價函數,獨立地對每個原始特征項進行評分,然后按分值的高低將它們排序,從中選取若干個分值最高的特征項,以達到減少總特征數的目的。 因此,評價函數的好壞是影響特征選擇的關鍵問題。特征選擇一般有:文檔頻率、信息增益、期望交叉熵、互信息、文本證據權、奇率、x2 統計量等。 [按此方式選擇得到的前K個分量,組合起來并不一定就是最好的特征; 因為這K個特征之間通常存在相關]
特征提取又稱綜合評估法,它是將原有的特征集T 加以聯系和轉化以構建新特征集T'的過程,一般| T' |《| T | ,因而可達到降維的效果;特征提取的思想是:由于一詞多義、多詞一義的現象大量存在于文本信息中,導致文本的原始項可能不是文檔內容表示的最佳維度。特征提取就是試圖通過重構新項來避免上述問題。 一般有項聚類、潛在語義索引(LSI)、多維尺度變換、自組織特征映射等
本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/javatalk/archive/2007/11/29/1906958.aspx
總結
- 上一篇: weka 特征选择
- 下一篇: linear regression