主成分分析以及应用:企业综合实力排序
這段時(shí)間一直在學(xué)習(xí)數(shù)據(jù)挖掘的一些算法,今天通過不斷查閱資料,學(xué)習(xí)整理了一下主成分分析這個(gè)數(shù)據(jù)降維算法。并且結(jié)合一個(gè)實(shí)例進(jìn)行matlab編程實(shí)現(xiàn)。
主成分基本原理
在數(shù)據(jù)挖掘中,經(jīng)常會遇到一個(gè)問題就是一個(gè)問題出現(xiàn)了n多個(gè)變量,而且變量之間還可能會存在各種復(fù)雜的相互聯(lián)系,變量之間并不是獨(dú)立的。那么主成分分析就是將多個(gè)變量綜合為少數(shù)幾個(gè)代表性的變量,而且這些主要的變量僅能夠代表原始變量的絕大多數(shù)信息又互不相關(guān)的一種數(shù)據(jù)降維算法。
主成分分析采取一種數(shù)據(jù)降維思想,其所要做的就是設(shè)法就原來眾多的具有一定相關(guān)性的變量,重新組合為一種新的相互無關(guān)的綜合變量來代表原來的眾多個(gè)變量。它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的p 個(gè)正交方向,然后對多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。
主成分分析的原理是設(shè)法將原來變量重新組合成一組新的相互無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語言表達(dá)就是要求:
Cov(F1,F2)=0
則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。
PCA方法計(jì)算步驟
(1)首先對于原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
X=
那么就可以將X按照列進(jìn)行Z?score標(biāo)準(zhǔn)化.其轉(zhuǎn)化函數(shù)為:
x?=x?μσ
其中μ為按照列計(jì)算得到的樣本數(shù)據(jù)均值,σ 位按照列計(jì)算得到的樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
(2)計(jì)算經(jīng)過標(biāo)準(zhǔn)化處理后得到的數(shù)據(jù)的相關(guān)性矩陣。
R=
r11r21?rn1r12r22?rn2????r1pr2p?rnp
其中:rij=Cov(xi,xj)var(xi)√var(xj)√=∑k=nk=1(xki?xˉi)(xkj?xˉj)∑k=nk=1(xki?xˉi)√∑k=nk=1(xkj?xˉj)√,n>1.
(3)計(jì)算相關(guān)系數(shù)矩陣R特征值(λ1,λ2,?,λp 和相應(yīng)的特性向量ai=(ai1,ai2,?,ai3)
(4)對特征值進(jìn)行降序排列。
(5)計(jì)算降序排列后的特征值的貢獻(xiàn)率以及累計(jì)貢獻(xiàn)率
contributionRate=λi∑pi=1λi
accumulativeContributionRate=∑ki=1λi∑pi=1λi,k≤p.
(6)計(jì)算主成分得分矩陣
根據(jù)標(biāo)準(zhǔn)化的原始數(shù)據(jù),按照各個(gè)樣品,分別帶入主成分表達(dá)式,就可以得到各個(gè)主成分下的各個(gè)樣品的新數(shù)據(jù),即主成分的得分。具體形式為:
F11F21?Fn1F12F22?Fn2????F1kF1k?Fnk
其中,Fij=aj1xi1+aj2xi2+?+ajpxip,i=1,2,?,n,j=1,2,?,k。
Matlab程序?qū)崿F(xiàn)
4 . 結(jié)果
1)特征值貢獻(xiàn)率以及累計(jì)貢獻(xiàn)率:
| 5.7261 | 0.7170 | 0.7170 | ||
| 1.0972 | 0.1372 | 0.8547 | ||
| 0.5896 | 0.0737 | 0.9279 | ||
| 0.2858 | 0.0357 | 0.9636 | ||
| 0.1456 | 0.0182 | 0.9818 | ||
| 0.1369 | 0.0171 | 0.9989 | ||
| 0.0060 | 0.00075 | 0.9997 | ||
| 0.0027 | 0.002034 | 1.0000 |
2)公司打分以及排名
| 4.235 | 9 | |
| 3.971 | 1 | |
| 2.367 | 8 | |
| 1.970 | 6 | |
| 1.798 | 5 | |
| 1.103 | 13 | |
| 0.752 | 15 | |
| 0.168 | 14 | |
| -0.292 | 2 | |
| -1.007 | 10 | |
| -1.523 | 7 | |
| -2.054 | 4 | |
| -2.513 | 11 | |
| -3.643 | 3 | |
| -5.332 | 12 |
可依據(jù)打分結(jié)果得出,綜合實(shí)力最強(qiáng)的是序號為9的那家公司。
5 . Matlab自帶主成分分析函數(shù)pca對比驗(yàn)證
為了表明計(jì)算的準(zhǔn)確性,我再采用了matlab自帶的主成分函數(shù)pca進(jìn)行了一個(gè)對比驗(yàn)證。
返回的latent是一個(gè)向量,它是X所對應(yīng)的協(xié)方差矩陣的特征值向量。
我們主要看latent矩陣得到結(jié)果
| 5.7261 |
| 1.0972 |
| 0.5896 |
| 0.2858 |
| 0.1456 |
| 0.1369 |
| 0.0060 |
| 0.0027 |
發(fā)現(xiàn)計(jì)算結(jié)果是一樣的。
6 . 主成分分析法優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
?、倏上u估指標(biāo)之間的相關(guān)影響。因?yàn)橹鞒煞址治龇ㄔ趯υ紨?shù)據(jù)指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分,而且實(shí)踐證明指標(biāo)間相關(guān)程度越高,主成分分析效果越好。
?、诳蓽p少指標(biāo)選擇的工作量,對于其他評估方法,由于難以消除評估指標(biāo)間的相關(guān)影響,所以選擇指標(biāo)時(shí)要花費(fèi)不少精力,而主成分分析法由于可以消除這種相關(guān)影響,所以在指標(biāo)選擇上相對容易些。
?、壑鞒煞址治鲋懈髦鞒煞质前捶讲畲笮∫来闻帕许樞虻?#xff0c;在分析問題時(shí),可以舍棄一部分主成分,只取前面方差較大的幾個(gè)主成分來代表原變量,從而減少了計(jì)算工作量。用主成分分析法作綜合評估時(shí),由于選擇的原則是累計(jì)貢獻(xiàn)率≥85%,不至于因?yàn)楣?jié)省了工作量卻把關(guān)鍵指標(biāo)漏掉而影響評估結(jié)果。
缺點(diǎn):
?、僭谥鞒煞址治鲋?#xff0c;我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平(即變量降維后的信息量須保持在一個(gè)較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無實(shí)際含義)。
②主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
?、郛?dāng)主成分的因子負(fù)荷的符號有正有負(fù)時(shí),綜合評價(jià)函數(shù)意義就不明確。
總結(jié)
以上是生活随笔為你收集整理的主成分分析以及应用:企业综合实力排序的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度极速版怎么无法提现(登录百度帐号)
- 下一篇: 中国建设银行app怎么查账单明细(《中国