机器学习——数据降维和相关性分析
特征工程中數(shù)據(jù)降維方法思想有兩種:
1. 破壞數(shù)據(jù)原有的結(jié)構(gòu)從而提取數(shù)據(jù)的主要特征,例如主成分分析(PCA);
2. 對數(shù)據(jù)進(jìn)行相關(guān)性分析,按照一定的法則來對數(shù)據(jù)的屬性進(jìn)行取舍達(dá)到降維的目的。
? ?相關(guān)性分析主要考量兩組數(shù)據(jù)之間的相關(guān)性,以一種指標(biāo)來判定,觀察數(shù)據(jù)中哪些屬性與目標(biāo)數(shù)據(jù)的相關(guān)性較強(qiáng),從而做出保留,哪些較弱,進(jìn)行剔除。
? ?相關(guān)性分析方法也分為線性相關(guān)性分析與非線性相關(guān)性分析兩種,分別應(yīng)用于不同的場景。
一、 線性相關(guān)性分析
1.數(shù)據(jù)可視化方法:數(shù)據(jù)可視化在某些情況下可以簡單且直觀的判定數(shù)據(jù)之間的相關(guān)性,但是無法很好的展現(xiàn)出數(shù)據(jù)之間的關(guān)系。
2.皮爾遜相關(guān)性分析(還有斯皮爾曼)
使用pearson相關(guān)系數(shù)之前需要檢查數(shù)據(jù)是否滿足牽制條件:
1.兩個(gè)變量間有線性關(guān)系;
2.變量是連續(xù)變量;
3.變量符合正態(tài)分布,且二元分布也符合正態(tài)分布‘
4.兩變量獨(dú)立;
5.兩變量的方差不為0’
?
結(jié)果判斷與分析:
相關(guān)系數(shù)的絕對值越大,相關(guān)性越強(qiáng)(-1 , 1)
通常情況下通過以下取值范圍判斷變量的相關(guān)強(qiáng)度:
相關(guān)系數(shù) 0.8~1.0? 極強(qiáng)相關(guān)
? ? ? ? ? ? ? ? 0.6~0.8? 強(qiáng)相關(guān)
? ? ? ? ? ? ? ? 0.4~0.6 中等程度相關(guān)
? ? ? ? ? ? ? ? 0.2~0.4? 弱相關(guān)
? ?? ? ? ? ? ? ?0.0~0.2? 極弱相關(guān)或無相關(guān)
以上的分析是針對理論環(huán)境下,在實(shí)際的工程應(yīng)用中也有學(xué)者發(fā)現(xiàn)且表明當(dāng)相關(guān)性大于0.2即代表存在相關(guān)性。
注意:
1.Pearson相關(guān)系數(shù)是用來檢測兩個(gè)連續(xù)型變量之間線性相關(guān)的程度,并且要求這兩個(gè)變量分別分布服從正態(tài)分布;
2.pearson相關(guān)系數(shù)僅能度量變量間的線性相關(guān)性,如果變量間相關(guān)性未知,則pearson相關(guān)系數(shù)的大小沒有指導(dǎo)意義,此時(shí)需要借助可視化手段輔助判斷;
3.兩變量的pearson相關(guān)系數(shù)實(shí)際上是這兩個(gè)變量0均值化后的cosine相似度;
4.如果兩個(gè)變量是非線性相關(guān),為了使用線性模型,可以先將特征變量進(jìn)行非線性變換,使之與目標(biāo)線性相關(guān)‘
5.pearson相關(guān)系數(shù)對異常值比較敏感,在數(shù)據(jù)清洗階段需要將異常值過濾或者平滑處理。
二、 非線性相關(guān)性分析
1,最大信息系數(shù)(maximal information coefficient, MIC)
最大信息系數(shù)是一種現(xiàn)代的相關(guān)性分析方法,該方法可以考察兩個(gè)變量(大量數(shù)據(jù),通常數(shù)據(jù)量在500條以上)之間的線性關(guān)系和非線性關(guān)系。
最大信息系數(shù):?https://minepy.readthedocs.io/en/latest/index.html#
?
(大概這么多,以后再補(bǔ)充)
參考:
https://www.cnblogs.com/zhuozige/p/12891600.html
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的机器学习——数据降维和相关性分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超超超超超详细的数据库课设报告-学生公寓
- 下一篇: HDU 5745 La Vie en