【数据平台】sklearn库特征工程之特征选择和降维
生活随笔
收集整理的這篇文章主要介紹了
【数据平台】sklearn库特征工程之特征选择和降维
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1、特征選擇
當(dāng)數(shù)據(jù)預(yù)處理完成后,我們需要選擇有意義的特征輸入機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練。通常來說,從兩個方面考慮來選擇特征:
- 特征是否發(fā)散:如果一個特征不發(fā)散,例如方差接近于0,也就是說樣本在這個特征上基本上沒有差異,這個特征對于樣本的區(qū)分并沒有什么用。
- 特征與目標(biāo)的相關(guān)性:這點(diǎn)比較顯見,與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。除方差法外,本文介紹的其他方法均從相關(guān)性考慮。
根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:
- Filter:過濾法,按照發(fā)散性或者相關(guān)性對各個特征進(jìn)行評分,設(shè)定閾值或者待選擇閾值的個數(shù),選擇特征。
- Wrapper:包裝法,根據(jù)目標(biāo)函數(shù)(通常是預(yù)測效果評分),每次選擇若干特征,或者排除若干特征。
- Embedded:嵌入法,先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過訓(xùn)練來確定特征的優(yōu)劣。
我們使用sklearn中的feature_selection庫來進(jìn)行特征選擇。
2、降維
當(dāng)特征選擇完成后,可以直接訓(xùn)練模型了,但是可能由于特征矩陣過大,導(dǎo)致計算量大,訓(xùn)練時間長的問題,因此降低特征矩陣維度也是必不可少的。常見的降維方法除了以上提到的基于L1懲罰項的模型以外,另外還有主成分分析法(PCA)和線性判別分析(LDA),線性判別分析本身也是一個分類模型。PCA和LDA有很多的相似點(diǎn),其本質(zhì)是要將原始的樣本映射到維度更低的樣本空間中,但是PCA和LDA的映射目標(biāo)不一樣:PCA是為了讓映射后的樣本具有最大的發(fā)散性;而LDA是為了讓映射后的樣本有最好的分類性能。所以說PCA是一種無監(jiān)督的降維方法,而LDA是一種有監(jiān)督的降維方法。
#降維,PCA和LDA有很多的相似點(diǎn),其本質(zhì)是要將原始的樣本映射到維度更低的樣本空間中,但是PCA和LDA的映射目標(biāo)不一樣:PCA是為了讓映射后的樣本具有最大的發(fā)散性;而LDA是為了讓映射后的樣本有最好的分類性能。所以說PCA是一種無監(jiān)督的降維方法,而LDA是一種有監(jiān)督的降維方法。 #1:主成分分析法(PCA) #主成分分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為主成分?jǐn)?shù)目 PCA(n_components=2).fit_transform(iris.data) #2:線性判別分析法(LDA) #線性判別分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為降維后的維數(shù) LDA(n_components=2).fit_transform(iris.data, iris.target)參考:http://www.cnblogs.com/jasonfreak/p/5448385.html
總結(jié)
以上是生活随笔為你收集整理的【数据平台】sklearn库特征工程之特征选择和降维的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据平台】sklearn库特征工程之数
- 下一篇: 【正一专栏】瓜迪奥拉就是一座无可匹及的丰