《多元统计分析》学习笔记之主成分分析
鄙人學習筆記
文章目錄
- 主成分分析
- 主成分分析的基本原理
- 總體主成分及其性質
- 主成分
- 主成分的性質
- 相關問題討論
- 關于由協方差矩陣或相關矩陣出發求解主成分
- 主成分分析不要求數據來自于正態總體
- 主成分分析與重疊信息
- 主成分分析步驟及邏輯框圖
- 步驟
- 邏輯框圖
主成分分析
主成分分析是利用降維的思想,在損失很少信息的前提下,把多個指標轉化為幾個綜合指標的多元統計方法。
通常把轉化生成的綜合指標稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能。
主成分分析的基本原理
在對某一事物進行實證研究時,為了更全面、準確地反映事物的特征及其發展規律,人們往往要考慮與其有關系的多個指標,這些指標在多元統計中也稱為變量。這樣就產生了如下問題:一方面人們為了避免遺漏重要的信息而考慮盡可能多的指標,另一方面考慮指標的增多增加了問題的復雜性,同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至會抹殺事物的真正特征與內在規律。基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。
主成分分析正是研究如何通過原來變量的少數幾個線性組合來解釋原來變量絕大多數信息的一種多元統計方法。
既然研究某一問題涉及的眾多變量之間有一定的相關性,就必然存在著起支配作用的共同因素。根據這一點,通過對原始變量相關矩陣或協方差矩陣內部結構關系的研究,利用原始變量的線性組合形成幾個綜合指標(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復雜問題時更容易抓住主要矛盾。
- 主成分分析的基本思想
利用主成分分析得到的主成分與原始變量之間有如下基本關系:
(1)每一個主成分都是各原始變量的線性組合。
(2)主成分的數目大大少于原始變量的數目。
(3)主成分保留了原始變量絕大多數信息。
(4)各主成分之間互不相關。
- 主成分分析的基本理論
對 X進行線性變換,可以形成新的綜合變量,用 Y表示,也就是說,新的綜合變量可以由原來的變量線性表示,即滿足下式:
由于可以任意地對原始變量進行上述線性變換,由不同的線性變換得到的綜合變量Y 的統計特性也不盡相同。因此為了取得較好的效果,我們總是希望Yi=ui’X的方差盡可能大且各Yi 之間互相獨立,由于:
對于任意的常數c,有:
因此對ui 不加限制時,可使var(Yi)任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:
(1)ui’ui=1(i =1,2,…,p)。
(2)Yi 與Yj 相互無關(i ≠ j;i,j =1,2,…,p)。
(3)Y1 是X1,X2,…,Xp 的一切滿足原則(1)的線性組合中方差最大者;Y2 是與Y1 不相關的X1,X2,…,Xp所有線性組合中方差最大者;…,Yp 是與Y1,Y2,…,Yp-1 都不相關的X1,X2,…,Xp 的所有線性組合中方差最大者。
基于以上三條原則決定的綜合變量 Y1, Y2,…, Yp分別稱為原始變量的第一、第二……第 p個主成分。其中,各綜合變量在總方差中所占的比重依次遞減。
- 主成分分析的幾何意義
主成分分析的過程無非就是坐標系旋轉的過程,各主成分表達式就是新坐標系與原坐標系的轉換關系,在新坐標系中,各坐標軸的方向就是原始數據變差最大的方向。
總體主成分及其性質
主成分分析的基本思想就是在保留原始變量盡可能多的信息的前提下達到降維的目的,從而簡化問題的復雜性并抓住問題的主要矛盾。
而這里對于隨機變量 X1, X2,…, Xp而言,其協方差矩陣或相關矩陣正是對各變量離散程度與變量之間的相關程度的信息的反映,而相關矩陣不過是將原始變量標準化后的協方差矩陣。
我們所說的保留原始變量盡可能多的信息,也就是指生成的較少的綜合變量(主成分)的方差和盡可能接近原始變量方差的總和。因此在實際求解主成分的時候,總是從原始變量的協方差矩陣或相關矩陣的結構分析入手。
主成分
- 引論
設矩陣 A′= A,將 A的特征值 λ1, λ2,…, λn依大小順序排列,不妨設 λ1 ≥ λ2 ≥… ≥ λn, γ1, γ2,…, γp為矩陣 A各特征值對應的標準正交特征向量,則對任意向量 x,有
- 從協方差陣出發求解主成分
設隨機向量 X=( X1, X2,…, Xp)′的協方差矩陣為 ∑, λ1 ≥ λ2 ≥… ≥ λn為 ∑的特征值, γ1, γ2,…, γp為矩陣 A各特征值對應的標準正交特征向量,則第 i個主成分為:
此時:
Y的分量Y1,Y2,…,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要條件是:
(1)Y= P′ X,即 P為 p階正交陣;
(2)Y的分量之間互不相關,即 D( Y)= diag( λ1, λ2,…, λp);
(3)Y的 p個分量是按方差由大到小排列,即: λ1 ≥ λ2 ≥… ≥ λn
主成分的性質
性質1: Y的協方差陣為對角陣
性質2:
- 累計貢獻率
主成分分析是把 p個隨機變量的總方差分解為 p個不相關的隨機變量的方差之和,使第一主成分的方差達到最大。
第一主成分是以變化最大的方向向量各分量為系數的原始變量的線性函數,最大方差為 λ1。
α1表明了 λ1的方差在全部方差中的比值,稱 α1為第一主成分的貢獻率。這個值越大,表明 Y1這個新變量綜合 X1, X2,…, Xp信息的能力越強,也即由 Y1的差異來解釋隨機向量 X的差異的能力越強。
進行主成分分析的目的之一是減少變量的個數,所以一般不會取 p個主成分,而是取 m< p個主成分。 m取多少比較合適,是一個很實際的問題,通常以所取 m使得累積貢獻率達到 85%以上為宜。
- 因子載荷量
第 k個主成分 Yk與原始變量 Xi的相關系數 ρ( Yk, Xi)稱為因子負荷量。
因子負荷量的絕對值大小刻畫了該主成分的主要意義及其成因。
性質3:
因子負荷量 ρ(Yk, Xi)與系數 γik成正比,與 Xi的標準差成反比關系,因此,絕不能將因子負荷量與系數向量混為一談。在解釋主成分的成因或第 i個變量對第 k個主成分的重要性時,應當根據因子負荷量而不能僅僅根據 Yk與 Xi的變換系數 γik。
性質4:
性質5:
Xi與 Y1, Y2,…, Yp的全相關系數的平方和等于 1。
- 方差貢獻率vi
Xi與前 m個主成分 Y1, Y2,…, Ym的全相關系數平方和稱為 Y1, Y2,…, Ym對原始變量 Xi的方差貢獻率 vi,即:
這一定義說明了前 m個主成分提取了原始變量 Xi中 vi的信息,由此可以判斷我們提取的主成分說明原始變量的能力。
- 從相關矩陣出發求解主成分
考慮如下的數學變換:
式中,μi與σii分別表示變量Xi的期望與方差。
于是有 E(Zi)=0, var(Zi)=1
原始變量 X1, X2,…, Xp的相關陣實際上就是對原始變量標準化后的協方差矩陣。因此,由相關矩陣求主成分的過程與主成分個數的確定準則實際上是與由協方差矩陣出發求主成分的過程與主成分個數的確定準則相一致的。
- 由相關性求主成分時主成分的簡單形式
(1)Y的協方差矩陣為對角陣?。
(2)
(3)第 k個主成分的方差占總方差的比例,即第 k個主成分的方差貢獻率為 αk= λk/ p,前 m個主成分的累積方差貢獻率為:
(4)
相關問題討論
關于由協方差矩陣或相關矩陣出發求解主成分
求解主成分的過程實際就是對矩陣結構進行分析的過程,也就是求解特征值的過程。從協方差陣出發和從相關陣出發所求得的主成分一般來說是有差別的,而且這種差別有時候還很大。
一般而言,對于度量單位不同的指標或取值范圍彼此差異非常大的指標,不直接由其協方差矩陣出發進行主成分分析,而應該考慮將數據標準化。
但是,對原始數據進行標準化處理后傾向于各個指標的作用在主成分的構成中相等。對于取值范圍相差不大或度量相同的指標進行標準化處理后,其主成分分析的結果仍與由協方差陣出發求得的結果有較大區別。
其原因是由于對數據進行標準化的過程實際上也就是抹殺原始變量離散程度差異的過程,標準化后的各變量方差相等均為 1,而實際上方差也是對數據信息的重要概括形式,也就是說,對原始數據進行標準化后抹殺了一部分重要信息,因此才使得標準化后各變量在對主成分構成中的作用趨于相等。
由此看來,對同度量或取值范圍在同量級的數據,還是直接從協方差矩陣求解主成分為宜。
主成分分析不要求數據來自于正態總體
也就是說,與很多多元統計方法不同,主成分分析不要求數據來自于正態總體。實際上,主成分分析就是對矩陣結構的分析,其中主要用到的技術是矩陣運算的技術及矩陣對角化和矩陣的譜分解技術。我們知道,對多元隨機變量而言,其協方差矩陣或相關矩陣均是非負定的,這樣,就可以按照求解主成分的步驟求出其特征值、標準正交特征向量,進而求出主成分,達到縮減數據維數的目的。
主成分分析與重疊信息
首先應當認識到,主成分分析方法適用于變量之間存在較強相關性的數據,如果原始數據相關性較弱,運用主成分分析后不能起到很好的降維作用,即所得的各個主成分濃縮原始變量信息的能力差別不大。
一般認為,當原始數據大部分變量的相關系數都小于 0. 3時,運用主成分分析不會取得很好的效果。
很多研究工作者在運用主成分分析方法時,都或多或少存在著對主成分分析消除原始變量重疊信息的期望,這樣,在實際工作之初就可以把與某一研究問題相關而可能得到的變量(指標)都納入分析過程,再用少數幾個主成分濃縮這些有用信息(假定已剔除了重疊信息),然后對主成分進行深入分析。
在對待重疊信息方面,生成的新的綜合變量(主成分)是有效剔除了原始變量中的重疊信息,還是僅按原來的模式將原始信息中的絕大部分用幾個不相關的新變量表示出來,這一點還有待討論。
- 多重共線性
在實際工作中,在選取初始變量進入分析時應該小心,對原始變量存在多重共線性的問題,在應用主成分分析方法時一定要慎重。應該考慮所選取的初始變量是否合適,是否真實地反映了事物的本來面目,如果是出于避免遺漏某些信息而特意選取了過多的存在重疊信息的變量,就要特別注意應用主成分分析所得到的結果。
如果所得到的樣本協方差矩陣(或者相關陣)最小特征值接近于0,那么就意味著,中心化以后的原始變量之間存在著多重共線性,即原始變量存在著不可忽視的重疊信息。
因此,在進行主成分分析得出協方差陣或是相關陣,發現最小特征根接近于零時,應該注意對主成分的解釋,或者考慮對最初納入分析的指標進行篩選。由此可以看出,雖然主成分分析不能有效地剔除重疊信息,但它至少可以發現原始變量是否存在重疊信息,這對減少分析中的失誤是有幫助的。
主成分分析步驟及邏輯框圖
步驟
進行主成分分析的步驟,對此進行歸納如下:
(1)根據研究問題選取初始分析變量;
(2)根據初始變量特性判斷由協方差陣求主成分還是由相關陣求主成分;
(3)求協方差陣或相關陣的特征根與相應標準特征向量;
(4)判斷是否存在明顯的多重共線性,若存在,則回到第一步;
(5)得到主成分的表達式并確定主成分個數,選取主成分;
(6)結合主成分對研究問題進行分析并深入研究。
邏輯框圖
總結
以上是生活随笔為你收集整理的《多元统计分析》学习笔记之主成分分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工鱼群算法-python实现
- 下一篇: Dll重定向(尚存否?)