主成分分析PAC
一、模型介紹
??維度災難,常是指在涉及到向量的計算的問題中,隨著變量維數的增加,計算量呈指數倍增長的一種現象。變量過多導致原本簡單的問題復雜化,甚至出現了無法解決的情況。在維度災難的背景下,主成分分析法(Principal components analysis)孕育而生,由于各變量間存在一定的相關關系,因此有可以用較少的綜合指標來反映多維數據里的信息,利用這一思路就可以通過數學手段,把多個變量化為少數變量,實現數據降維。
二、符號說明
| XXX | 原始數據矩陣 |
| CCC | 協方差矩陣 |
| λ\lambdaλ | 特征值 |
| ccc | 標準化后的特征向量 |
| PPP | 變換矩陣 |
| YYY | 降維新矩陣 |
三、模型步驟
3.1將原始數據按列組成 n 行 m 列矩陣 X
??將數據排列為矩陣,其中每一行為一種屬性,列為屬性的數據序列:
? X=(a11?a1ma21?a2m???an1?anm)X=\begin{pmatrix} a_{11} & \cdots & a_{1m}\\ a_{21} & \cdots & a_{2m}\\ \vdots & \ddots & \vdots\\ a_{n1} & \cdots & a_{nm} \end{pmatrix}X=??????a11?a21??an1???????a1m?a2m??anm????????
3.2數據標準化
??將X的每一行(代表一個屬性)進行零均值化,即減去這一行的均值:
? aij=1m∑j=1maij?aija_{ij}=\frac{1}{m}\sum\limits_{j=1}^{m}a_{ij}-a_{ij}aij?=m1?j=1∑m?aij??aij?
3.3求協方差矩陣
? C=1mXXTC=\frac{1}{m}XX^{T}C=m1?XXT
??以兩種屬性的標準化數據為例,即:X=(a1a2?anb1b2?bn)X=\begin{pmatrix}a_{1}&a_{2}&\cdots&a_{n}\\b_{1}&b_{2}&\cdots&b_{n}\end{pmatrix}X=(a1?b1??a2?b2?????an?bn??)
則協方差矩陣如下:
? C=1mXXT(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)=(Cov(a,a)Cov(a,b)Cov(b,a)Cov(b,b))C=\frac{1}{m}XX^{T}\begin{pmatrix}\frac{1}{m}\sum_{i=1}^{m}a_{i}^{2} & \frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}\\\frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}&\frac{1}{m}\sum_{i=1}^{m}b_{i}^{2}\end{pmatrix}=\begin{pmatrix}Cov(a,a)&Cov(a,b)\\Cov(b,a)&Cov(b,b)\end{pmatrix}C=m1?XXT(m1?∑i=1m?ai2?m1?∑i=1m?ai?bi??m1?∑i=1m?ai?bi?m1?∑i=1m?bi2??)=(Cov(a,a)Cov(b,a)?Cov(a,b)Cov(b,b)?)
3.4求矩陣特征值與特征向量
??計算協方差矩陣的特征值和特征向量,參考線代相關知識。
??求解后特征值為:λ1、λ2?λn\lambda_{1}、\lambda_{2}\cdots\lambda_{n}λ1?、λ2??λn?
??標準化后的特征向量為:c1、c2?cnc_{1}、c_{2}\cdots c_{n}c1?、c2??cn?
3.5得到變換矩陣P
??將特征向量按對應特征值大小從上到下按行排列成矩陣,根據需要取前 k 行組成矩陣 P,那么 P 的前 K 行就是要尋找的基:
? P=(c1Tc2T?ckT)P=\begin{pmatrix}c_{1}^{T}\\c_{2}^{T}\\\vdots\\c_{k}^{T}\end{pmatrix}P=??????c1T?c2T??ckT????????
3.6Y=PXY=PXY=PX即為降維到 k 維后的數據
??用 P 的前 K 行組成的矩陣乘以 X 就使得 X 從 N 維降到了 K 維并滿足上述優化條件。
四、PAC代碼
五、模型優缺點
優點
1、緩解維度災難:PCA 算法通過舍去一部分信息之后能使得樣本的采樣密度增大(因為維數降低了),這是緩解維度災難的重要手段。
2、降噪:當數據受到噪聲影響時,最小特征值對應的特征向量往往與噪聲有關,將它們舍棄能在一定程度上起到降噪的效果。
3、特征獨立具有:PCA 不僅將數據壓縮到低維,它也使得降維之后的數據各特征相互獨立;
缺點
1、過擬合:PCA 保留了主要信息,但這個主要信息只是針對訓練集的,而且這個主要信息未必是重要信息。有可能舍棄了一些看似無用的信息,但是這些看似無用的信息恰好是重要信息,只是在訓練集上沒有很大的表現,所以 PCA 也可能加劇了過擬合。
2、新數據沒有合理科學解釋。
總結
- 上一篇: PAC—主成分分析方法
- 下一篇: 上网行为管理设备网关部署方式