降维处理:PCA和LDA
1,主成分分析
主成分分析(Principal Component Analysis,PCA)是一種無監督問題,是降維中最常用的一種手段,基于方差(方差最大的方向)提取最有價值的信息再進一步分類。降維后數據特征的意義發生變化。
2,向量的表示及基變換
2.1 內積:
設向量B的模為1,則A與B的內積值等于A向B所在直線投影的矢量長度:
2.2 向量的線性組合
向量可以表示為(3,2)實際上表示線性組合:
其中(1,0)和(0,1)叫做二維空間中的一組基
2.3 基變換
基是正交的(即內積為0,或直觀說相互垂直,線性無關),更好的表達坐標軸上的數據。
變換:數據與一個基做內積運算,結果作為第一個新的坐標分量,然后與第二個基做內積運算,結果作為第二個新坐標的分量,比如:
推廣到多維:
兩個矩陣相乘的意義是將右邊矩陣a中的每一列列向量ai變換到左邊矩陣p中每一行行向量pi為基所表示的空間中去(盡可能去除線性相關性)。
2.4 協方差矩陣
方向:選擇的這個方向(或者說基)應該盡量保留最多的原始信息,即一種直觀的看法是:希望投影后的投影值盡可能分散。
方差(單個特征發散的程度):
尋找一個一維基,使得所有數據變換為這個基上的坐標表示后,方差值最大(盡可能分散)
協方差(假設均值為0時(以0為中心化),兩個特征之間的關系):
如果單純只選擇方差最大的方向,后續方向應該會和方差最大的方向接近重合。而為了讓兩個字段盡可能表示更多的原始信息,我們是不希望它們之間存在(線性)相關性的,可以用兩個字段的協方差表示其相關性,當協方差為0時,表示兩個字段完全獨立。為了讓協方差為0,選擇第二個基時只能在與第一個基正交的方向上選擇,然后在保證第二個基在該方向上的方差盡可能大。因此最終選擇的兩個方向一定是正交的。
3,優化目標
將一組N維向量降為K維(K大于0,小于N),目標是選擇K個單位正交基,使原始數據變換到這組基上后,各字段兩兩間協方差為0,字段的方差則盡可能大。
協方差矩陣:
m代表數據的個數,x為數據本身,矩陣對角線上的兩個元素分別是兩個字段各自的方差,而其它元素是a和b的協方差
協方差矩陣對角化:即除對角線外的其它元素化為0(協方差為0),并且在對角線上將元素按大小從上到下排列(方差盡可能大)
一個n行n列的實對稱矩陣一定可以找到n個單位正交特征向量:
實對稱陣可進行對角化:
根據特征值的從大到小,將特征向量從上到下排列,則用前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維后的數據矩陣Y
4,PCA實例
(1)原始數據共5個數據,每個數據有2個特征,并進行0中心化
(2)計算協方差矩陣,對角線為特征的方差,非對角線為特征的協方差(特征間的關系):
(3)進行矩陣分解求特征值和特征向量,找出對應特征值最大的特征向量,并對該向量進行歸一化處理(基)
(4)將基向量與原始數據作內積得到降維后的結果
5,線性判別分析
線性判別分析(Linear Discriminant Analysis,LDA)是由Ronald A. Fisher在1936年提出了線性判別方法,用于數據預處理中的降維,完成分類任務,LDA關心的是能夠最大化類間區分度的坐標軸成分,即將特征空間(數據集中的多維樣本)投影(找到更合適分類的空間k)到一個維度更小的 k 維子空間中,同時保持區分類別的信息。所以與PCA不同,LDA更關心分類而不是方差。
5.1 原理
LDA是“有監督”的,它計算的是另一類特定的方向,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近方法
原始數據:
找到合適的空間進行投影:
變換數據(投影后的數據):
從上述來看,LDA分類的一個目標是使得不同類別之間的距離越遠越好,同一類別之中的距離越近越好。
每類樣例的均值:
投影后的均值:
投影后的兩類樣本中心點盡量分離:
但是只是最大化J(w),并不能滿足要求,如下圖,X1的方向可以最大化J(w),但是卻分的不好
散列值描述了樣本點的密集程度,值越大,越分散,反之,越集中。同類之間應該越密集些:
故目標函數為:
散列值公式展開:
散列矩陣:
類內散布矩陣Sw = S1+S2:
目標函數的分子展開:
??稱作類間散布矩陣,故最終目標函數:
分母進行歸一化,如果分子、分母是都可以取任意值的,那就會使得有無窮解,故將分母限制為長度為1
拉格朗日乘子法:
兩邊都乘以Sw的逆:
總結
以上是生活随笔為你收集整理的降维处理:PCA和LDA的全部內容,希望文章能夠幫你解決所遇到的問題。