机器学习——经典降维算法与框架综述
目錄???????
綜述
一、介紹
二、?降維算法回顧
1.KNN
1.1 KNN核心思想
1.2 KNN算法流程
1.3 KNN算法優缺點
2.線性降維
(1)PCA
2.1.1 PCA簡介
2.1.2 PCA優化問題與算法流程
(2)LDA
2.2.1 LDA簡介
2.2.2 LDA優化問題與算法流程
3.流形學習
(1)MDS
3.1.1 MDS簡介
3.1.2 MDS優化問題與算法流程
(2)?Isomap
3.2.1 Isomap簡介
3.2.2 Isomap算法流程
(3)LLE
3.3.1 LLE簡介
3.3.2 LLE優化問題與算法流程
三、降維算法的優化
1.2DPCA
1.1 PCA不足之處
1.2 2DPCA簡介
2.MMC
2.1 LDA不足之處
2.2 MMC簡介
3.正則化
3.1 分類(擬合)問題
3.2 正則化簡介
4.核方法
4.1 線性降維的不足
4.2 核方法簡介
四、降維框架
1.圖嵌入框架
1.1 圖嵌入視角下的降維
1.2 不同形式的圖嵌入?
1.3 圖嵌入平臺
2.半監督降維框架
五、實驗
六、結論
七、主要參考文獻
綜述
? ? 在模式識別和機器學習領域,為了避免 "維度災難",尋找高維數據的低維表示是一項基本任務。在過去的幾十年里,大量的算法--有監督的或無監督的;來自統計學或幾何學理論的--已經被設計出來,為降維問題提供不同的解決方案。本文在大量相關研究論文的基礎上,對機器學習中經典的降維算法和降維框架進行了回顧和總結,包括算法的原理、過程和優化問題的推導,以及觀點的統一和框架的構建。還通過實驗分析了不同降維方法和框架應用于不同數據集的實驗結果,并通過統計分析回顧和說明了算法框架之間的聯系和區別。
索引范圍-降維,流形學習,子空間學習,框架。
一、介紹
? ? 在模式識別和機器學習領域,許多應用,如基于外觀的圖像識別和文檔分類,都面臨著高維度的問題,而 "維度災難 "會導致各種問題,如計算效率低和實驗結果差。尋找高維數據的低維表示是一項基本任務。
? ? 使用減少的特征,分類可以更快、更穩健。因此,大量的有監督和無監督(線性降維、流形學習、核方法等)的降維算法和源于統計學或幾何學理論的降維框架,用于解決機器學習發展中的降維問題,其中每種降維算法的原理、切入點和優化目標不同,導致不同算法之間的優化問題和算法過程不同,增加了學習、理解和應用的難度,因此一些降維框架(圖嵌入框架、半監督降維框架等)已經被提出來,在一個統一的視角和平臺下解釋一些降維算法。
? ? 本文將介紹機器學習中經典的降維算法和框架的原理并推導出優化問題,并將不同的降維算法和框架應用于實際問題(以人臉識別為例),并結合統計和理論分析,對不同的降維方法和框架在不同的數據集上進行多維度的比較,并在分析實驗現象和結果的基礎上給出合理的實驗結論。
? ? 本論文的其余部分結構如下。第2節介紹了各種經典降維算法的基本思路和優化問題的推導。第3節總結了經典降維算法的不足之處,并針對相應的不足之處提出了一種最優的降維方法。第四節,本文以圖嵌入框架和半監督降維框架為例,介紹了降維框架的提出和構建方法。在第5節中,我們通過降維算法和框架在實驗中的應用以及對實驗結果的統計分析,說明了算法和框架之間的聯系和區別。最后,我們在第6節中得出結論。
二、?降維算法回顧
? ? 在過去的幾十年里,為了解決 "維度災難 "的問題,很多降維算法都被提出來用于降維任務。盡管這些算法的動機、原理、切入點和優化目標都不一樣,但它們的目標是相似的,即得出低維表示并促進后續分類任務的進行。
? ? 對于一般的分類問題,用于模型訓練的樣本集表示為矩陣X = [x1 , x2 , ..., xN], xi ∈ ?m,其中N是樣本數,m是特征維度(m維)。對于監督學習問題,假設樣本xi的類標簽為ci∈{1,2,...,Nc},其中Nc是類的數量。我們還讓πc和nc分別表示屬于第c類的樣本的索引集和數量。降維的基本任務是找到一個映射函數F : x?→ y:將x∈?m轉換為所需的低維表示y∈?d,其中,m >> d,如公式(1)所示:
? ? 在不同的情況下,函數F可能是顯性的或隱性的,線性的或非線性的。對于不同類型的數據,即向量、矩陣和本文后面介紹的一般張量,在圖1中顯示了一個直觀的降維說明。在本節中,我們將從線性降維和流形學習的角度來推導一些經典降維算法的優化問題,并介紹相應的算法過程。
圖1. 對不同形式的數據進行降維的說明。請注意,三階張量數據是Gabor過濾的圖像
1.KNN
? ? 在正式介紹降維算法之前,我們先介紹機器學習中最簡單的算法之一:KNN。作為一種經典的分類算法,KNN在機器學習和模式識別領域的實際應用中經常與降維算法一起使用,這有助于更好地完成分類和識別等任務。
1.1 KNN核心思想
? ? 一個樣本與數據集中的k個樣本最為相似,如果這k個樣本中的大多數屬于某個類別,那么這個樣本也屬于這個類別。換句話說,這種方法只根據最近的一個或幾個樣本(k人為設定)的類別來決定要分類的樣本的類別,KNN方法在類別決定中只與極少數的相鄰樣本有關,KNN算法的概念在圖2中被直觀地描述出來。
圖2 KNN核心思想可視化樣例
1.2 KNN算法流程
? ? KNN的一般算法過程是用公式(2)或(3)計算給定的兩個樣本集X和Y的歐氏距離,將距離按升序排序,取前k個,并進行(加權)平均。
1.3 KNN算法優缺點
? ? KNN算法優缺點如表1總結:?
表1 KNN算法優缺點
| 優點 | 缺點 |
| 簡單而有效 | 惰性學習 |
| 再訓練的成本低 | 類別分類沒有標準化 |
| 算法復雜度低 | 輸出的可解釋性不強 |
| 適用于類域交叉的樣本 | 不均勻性 |
| 大樣本的自動分類 | 計算量大 |
2.線性降維
? ? 線性降維,即用簡單的線性方法對數據進行降維,在機器學習領域一般分為有監督算法和無監督算法,區別在于前者將數據的標簽信息作為先驗知識。本小節將以無監督的PCA和有監督的LDA這兩種經典的降維算法為例,探討線性降維的特點,分析其實驗效果和優缺點。
(1)PCA
2.1.1 PCA簡介
? ? PCA(主成分分析)是一種主流的、簡單的無監督的線性降維算法。它以 "重建誤差最小化 "或 "散點最大化 "為目標,在低維空間中找到一個有效的投影軸,通過投影,將原始數據中相對重要的信息表達出來,從而達到降維的目的,PCA的算法概念直觀地描繪在圖3中:
圖3 PCA原理可視化?
2.1.2 PCA優化問題與算法流程
? ? 根據PCA的核心關注點,考慮到整個數據集,原始樣本點和基于投影的重構樣本點之間的關系應該按照最近可重構性最小化,所以PCA的優化問題可以寫成公式(4),其中W是正交基的集合,∑i x_i x_i^T是協方差矩陣。
? ? 從最大可分性出發,可以得到PCA的另一種解釋,即核心概念中提到的最大化投影樣本點的散布,方程(5)就是這種解釋下的PCA優化問題,其中∑i W^T x_i x_i^T W是樣本點的方差。
? ? PCA優化問題的解決可以通過拉格朗日算子法和廣義特征值分解得到。根據PCA的核心關注點和優化問題的解決,可以將PCA算法的步驟總結為表2:
表2 PCA算法流程
| 1.輸入樣本集的低維空間數d |
| 2.所有樣本的集中化 |
| 3.計算樣本XXT的協方差矩陣 |
| 4.對協方差矩陣進行特征值分解 |
| 5.取最大的d個特征值w1,w2...對應的特征向量 |
| 6.輸出投影矩陣W = (w1,w2..., wd) |
PCA原理補充及其代碼實踐應用可見:
機器學習——PCA(主成分分析)與人臉識別_@李憶如的博客-CSDN博客_pca人臉識別
(2)LDA
2.2.1 LDA簡介
? ? LDA(線性判別分析)是一種主流的、簡單的監督式線性降維算法。它以 "類內方差最小化,類間方差最大化 "為目標,找到可以優化分類的特征子空間,對數據進行投影,以達到降維的目的。圖4直觀地描述了LDA的算法概念。
圖4?LDA原理可視化??
2.2.2 LDA優化問題與算法流程
? ? 由于LDA需要最小化類內方差和最大化類間方差,并發現最優分類的特征子空間,所以類內散射矩陣Sw和類間散射矩陣Sb定義在公式(6)和(7)中,LDA的優化問題可以改寫為公式(8)(即Sb和Sw的 "廣義瑞利商")。
? ? 如何確定W?請注意,公式(8)中的分子分母是關于W的二次項,因此,(8)的解與W的長度無關,只與它的方向有關,不失為一個好辦法,所以〖W^T S_ω W〗=1,那么公式(8)就等同于公式(9)。?
? ? 與PCA類似,LDA優化問題的解決可以通過拉格朗日算子法和廣義特征值分解得到。根據LDA的核心關注點和優化問題的解決,可以將LDA算法的步驟總結為表3。?
表3 LDA算法流程
| 1.輸入具有低維空間數d的樣本集 |
| 2.對數據集進行分類,并計算出每個類的均值 |
| 3.計算類間散點矩陣Sb和類內散點矩陣Sw |
| 4.構建目標函數Sω-1Sb并對其進行特征分解 |
| 5.取最大的d個特征值w1,w2...所對應的特征向量 |
| 6.輸出投影矩陣W = (w1,w2..., wd) |
LDA原理補充及其代碼實踐應用可見:
機器學習——LDA(線性判別分析)與人臉識別_@李憶如的博客-CSDN博客_lda
3.流形學習
? ? 在機器學習和模式識別的實際應用中,直接使用線性降維往往是無效的,因為它沒有考慮到數據樣本在高維空間的分布和特點,所以提出了 "流形學習 "的概念。流形 "是指與歐氏空間局部同質的空間,而流形學習是一類借鑒拓撲流形概念的降維算法,即在高維空間中尋找低維流形并找到相應的嵌入映射,以更好地實現降維或數據可視化。圖5通過一個簡單的例子說明了流形學習的本質。
? ? 本節將以流形學習為例,介紹三種經典算法(MDS、Isomap和LLE)的原理、優化問題和算法過程,探討流形學習的特點,并分析其實驗效果和優缺點。
圖5? 流形學習原理可視化樣例
(1)MDS
3.1.1 MDS簡介
? ? MDS(多維縮放)的核心概念是利用原始空間的距離矩陣D來計算減維樣本的內積矩陣B,從而使減維的歐氏距離等于原始空間的距離。
3.1.2 MDS優化問題與算法流程
? ? MDS的優化問題定義在公式(10)中,算法流程總結在表4中。
表4 MDS算法流程
| 1.輸入距離矩陣D,低維空間數d |
| 2.根據相關公式計算出內積矩陣B |
| 3.對矩陣B做特征值分解 |
| 4.取由d個最大特征值組成的對角線矩陣A,V為其對應的特征向量矩陣。 |
| 5.輸出矩陣VA1/2,每一行是一個樣本的低維坐標? |
(2)?Isomap
3.2.1 Isomap簡介
? ? Isomap(等距測繪)是一種主流的、簡單的流形學習算法。從Isomap算法的角度來看,在高維空間中直接計算直線距離是不合適的,Isomap的核心理念是 "利用流形局部與歐氏空間同質的特點建立最近鄰連接圖",將計算距離的問題轉化為計算最近鄰連接圖上兩點間最短路徑的問題。
3.2.2 Isomap算法流程
? ? Isomap的原理與MDS相似,不同的是Isomap對距離矩陣做了另一種處理,其距離矩陣使用兩點之間的最短距離,所以Isomap重建的距離矩陣D可以作為MDS使用,其他過程是一樣的。
(3)LLE
3.3.1 LLE簡介
? ? 與Isomap試圖保持近鄰樣本之間的距離不同,LLE(局部線性嵌入)試圖保持鄰域之間的線性關系,如圖6所示,樣本點的坐標可以通過鄰域樣本坐標的線性組合來重建,而且這種線性關系的表達在低維空間仍然可以保持。
圖6 LLE原理可視化
3.3.2 LLE優化問題與算法流程
? ? LLE首先找到每個樣本x_i的近鄰子標集Q,然后計算線性重構的系數ω_i。因此,不難得出LLE的原始優化問題為公式(11):
? ? 由于LLE在低維空間中保持重構系數ω_i不變,因此優化問題與低維空間中的z和高維空間中的x一一對應,其中,讓M=(I-W)^T(I-W),優化問題可重寫為公式(12):
? ? 與線性降維類似,LLE優化問題的解決可以通過拉格朗日算子法與廣義特征值分解得到。根據LLE的核心概念和優化問題的解決,可以將LLE算法的步驟概括為表5:
表5 LLE算法流程?
| 1.輸入樣本集D,最近的鄰居參數k,低維空間的數量d |
| 2.確定每個樣本點的k近鄰,并找到相應的重建系數ωi |
| 3.根據M=(I-W)^T(I-W)找到M,對M進行特征值分解 |
| 4.返回M的d個最小的特征值所對應的特征向量 |
三、降維算法的優化
? ? 本節針對一些經典降維算法的不足之處,總結了一些優秀的優化算法或一些通用的優化方法。在以往的相關研究中,這些優化算法或方法已經被理論和實驗證明優于原有的降維算法,在算法效率、算法流程、實驗結果等部分有比較明顯的優化。本節主要介紹原有算法的不足之處,一些優化降維算法(PCA、LDA)的優化思路和優化效果,以及一些通用的優化方法(正則化、核方法)。
1.2DPCA
1.1 PCA不足之處
? ? 通過分析PCA的優化問題推導和算法流程,我們不難發現許多不足之處,如表6所述:
表6 PCA不足
| 1.在高數據量的情況下,將矩陣轉換為一維的計算量很大,會降低算法的效率。 |
| 2.PCA是無監督的,不利用樣本信息作為先驗知識 |
| 3.主成分特征維度的含義是模糊的,可解釋性很差 |
| 4.對不符合高斯分布的數據效果不佳 |
1.2 2DPCA簡介
? ? 2DPCA(Two-Dimensional PCA)是針對表6中PCA的第一個缺陷而優化的。2DPCA與PCA的區別在于,前者直接對矩陣進行操作,重新定義協方差矩陣,如公式(13),相當于去除圖像的行向量或列向量的相關性,從而提高算法的效率,其他步驟和推導與經典PCA基本相同。
2.MMC
2.1 LDA不足之處
? ? 雖然LDA是機器學習和模式識別領域常用的有效監督算法,但通過分析LDA的優化問題推導和算法流程,還是發現了很多不足之處,如表7所述:
表7?LDA不足
| 1.有限投影軸問題(≤類的數量-1) |
| 2.小樣本量問題 |
| 3.矩陣反演的計算成本高 |
| 4.不能更好地表征非線性問題 |
2.2 MMC簡介
? ? 對于LDA來說,當數據量較小時,很難保證類內散射矩陣是非正交的,這就是表7中提到的小樣本問題。為了克服LDA面臨的小樣本問題,研究人員提出了各種解決方案,如PCA+LDA算法、零空間LDA算法(NLDA)、正交LDA、完全LDA(CLDA)和Maxi- mum Margin Criterion(MMC)。在這些算法中,MMC是比較簡單和著名的算法之一。
? ? MMC以類間散射矩陣的跡與類內散射矩陣的跡之差作為判別標準,并在此基礎上得到一個有效的投影軸,使不同類的樣本具有更好的可分離性。因此,MMC不需要解決類內散射矩陣的逆矩陣。這樣,MMC在理論上就避免了由于類內散射矩陣的奇異性而導致的LDA無法解決的問題,從而提高了算法的效率。如上所述,優化問題被重新定義為公式(14),其他步驟和推導與經典LDA基本相同。?
3.正則化
3.1 分類(擬合)問題
? ? 回顧一下模型訓練的過程,模型參數的訓練實際上是一個不斷迭代的過程,以找到一個適合數據集的方程。但是,在擬合過程中,根據模型擬合程度的不同,有三種擬合情況:欠擬合、擬合和過擬合。以分類問題為例,擬合問題的可視化效果如圖7所示,而表8則分析了各種擬合情況的定義、原因和解決辦法:
圖7. 對分類問題的不同擬合情況的討論?
?Tips:其中左圖為欠擬合,中圖為(適當)擬合,右圖為過擬合。
表8?欠擬合和過擬合的分析
| 欠擬合 | 過擬合 | |
| 理由 | 1.訓練樣本數量少 2.模型復雜度低 3.在參數收斂前停止循環 | 1.數據噪音太大 2.特征太多 3.模型太復雜 |
| 解決方案 | 1.增加樣本的數量 2.增加模型參數以提高模型的復雜性 3.增加循環次數 4.檢查模型是否因為高學習率而無法收斂 | 1.清理數據 2.減少模型參數,降低模型的復雜性 3.增加懲罰因子,保留所有的特征,但減少參數的大小 |
3.2 正則化簡介
? ? 通過3.3.1中對擬合問題的分析,可以加入一個正則化項來防止模型的過擬合。正則化是給成本函數增加一個約束條件,限制其高階參數的大小不至于太大,從而提高模型效果的一種方法。對于不同的算法和模型,正則化項的類型也不同,包括L1正則化、L2正則化、半監督正則化等。在本小節中,我們以正則化LDA為例,分析正則化項如何優化算法和模型。
? ? 對于正則化LDA(RDA),實質上是在原目標函數中加入人為定義的參數(L2正則化項),以此來限制散點矩陣的大小,以達到更好的分離性和實驗效果,RDA的優化函數可描述為公式(15),優化問題的推導和算法流程與LDA基本相同。
4.核方法
4.1 線性降維的不足
如二、2所述,線性降維一般是直接在有限投影軸的低維空間中尋找高維空間數據的最優子空間。然而,在機器學習和模式識別領域的實際任務中,數據往往很難完全滿足完全的線性分布,此時線性降維的效果較差。除了上文中提到的流形學習外,另一種優化線性算法的方法是核方法。
4.2 核方法簡介
? ? 核方法提出的動機是為了解決分類任務中的線性不可分性問題,其核心理念是通過特定的核函數?:x→F將數據映射到高維的希爾伯特空間,然后在這個新的特征空間中執行算法,從而降低任務的難度,提高原算法的效果。在Hilbert空間中,可以用內積k(x_i ,x_j)=?(x_i )·?(x_j )來代替顯式映射,一個簡單的核方法的例子如圖8所示:
圖8 核方法的簡單例子?
? ? 對于機器學習和模式識別領域的不同任務,如果使用核方法進行優化,選擇一個合適的核函數是至關重要的,如圖9所示,幾種經典的核函數具有很強的泛化性能,是常用的。
圖9 幾種經典的核函數
四、降維框架
? ? 經過第二節和第三節對各種降維算法及其優化的分析,我們不難發現,雖然不同的降維方法不斷被提出和優化,但在原理上存在較大的差異,這就增加了學習、理解和應用的難度。針對這一問題,"框架思維 "已經被研究者們所研究,因此,降維框架的設計和構建已經成為機器學習和模式識別領域的一個熱門研究方向。
? ? 本節將通過介紹兩種經典的降維框架,即圖嵌入和半監督降維框架,以及不同框架下統一的新的優化問題和各降維算法的新表達方式,并以降維框架為平臺,開發新算法或優化現有算法,來介紹和分析降維框架的設計和構建方法。?
1.圖嵌入框架
? ? 為了統一不同動機的降維算法,提出了圖嵌入降維框架,大多數降維算法都可以在這個共同的框架內重新表述,每個算法都可以被認為是直接的圖嵌入或其線性/核/張量擴展,用于描述數據集的某些期望的統計或幾何屬性,同時揭示了降維方案的基本優點和缺點。此外,圖形嵌入框架可以作為開發新的降維算法的通用平臺。
1.1 圖嵌入視角下的降維
? ? 與圖1中描述的經典降維過程不同,從圖嵌入的角度來看,降維的核心是構造一個本征圖來描述數據中有價值的統計或幾何特征,以及一個懲罰圖來描述數據中需要抑制的統計或幾何特征,然后通過圖嵌入對應的圖保全準則(目標函數)來實現數據的降維,如公式(16)。對于上一節提到的線性方法和核方法,以及沒有提到的張量方法,都有相應的圖嵌入版本,主要區別在于構建本征圖和懲罰圖的方式不同。
其中,W是相似度矩陣,每個元素衡量一對頂點的相似度。L是一個拉普拉斯矩陣,在圖嵌入的角度新定義為公式(17)。 d是一個常數,B是一個約束矩陣,定義為避免目標函數的瑣碎解。b通常是一個對角線矩陣,用于尺度歸一化,也可能是一個拉普拉斯矩陣,用于懲罰圖Gp。
1.2 不同形式的圖嵌入?
? ? 為了適應不同類型的降維方法,圖嵌入除了上文提到的直接圖嵌入外,還有線性化、內核化和張量化三種不同的形式,不同的形式有不同但相似的保圖準則(目標函數)。
? ? 圖嵌入的線性化假定每個頂點的向量表示是由圖頂點的原始特征向量表示線性投影出來的,圖嵌入的內核化在線性圖嵌入算法上應用內核技巧來處理非線性分布的數據。最后,在圖嵌入的張量化中,原始頂點被編碼為任意階的一般張量,并應用多線性代數方法將直接圖嵌入擴展到基于張量表示的多線性情況。其中,框架的統一表達如圖10所示,表9中總結了經典降維算法在圖嵌入角度的新表達。?
?圖10 圖嵌入框架的統一表達
表9 流行降維算法的常見圖嵌入視圖
注意,D類型代表直接圖嵌入,而L、K和T分別表示圖嵌入的線性化、內核化和張量化。?
1.3 圖嵌入平臺
? ? 除了統一具有不同動機和過程的各種降維算法外,圖嵌入框架還可以作為開發新降維算法的通用平臺。下面以圖嵌入平臺開發MFA(邊際費雪分析)為例。
? ? 為了克服LDA在處理非高斯分布數據時,不同類的可分離性不能很好地用類間散布來描述,從而影響實驗結果的情況,MFA應運而生。MFA是基于圖保留準則開發的算法,其核心是利用圖嵌入平臺設計一個表征類內緊湊性的內在圖和一個表征類間分離性的懲罰圖,MFA的具體構造如圖11所示,算法流程如表10所述:
圖11. MFA的本征圖和懲罰圖的相鄰性
MFA算法流程
| 1.使用PCA的預測數據 |
| 2.構建類內緊湊性圖和類間可分離性圖 |
| 3.應用MFA線性化圖保全準則并解決 |
| 4.輸出投影矩陣 |
2.半監督降維框架
? ? 上文提到的圖嵌入降維框架從線性、核化和張量的角度統一了不同類型的降維方法,并為開發新算法提供了一個平臺。而半監督降維框架顧名思義,從監督/非監督的角度統一了不同的降維方法,并提出了相應算法的半監督版本及其核化。
? ? 半監督方法是指利用部分標記數據的標記信息,通過標記數據和未標記數據的組合來表示每個探測向量。它有效地避免了監督方法不使用數據的標簽信息、效果普遍較差的缺點,也節省了監督學習需要標記所有數據的時間和精力。該框架的核心是基于正則判別分析和正則最小二乘法之間的關系,它可以在保留局部流結構的情況下判別多類子流形式。接下來我們通過介紹方程(18)中二元分類情況下LS的正則化框架來介紹半監督的降維框架。
? ? 其中,函數由一組冗余基表示(本質上是原始優化問題),可應用于歐幾里得空間和再生希爾伯特空間。‖f‖_T^2是函數空間的Tikhonov正則化項(L2),‖f‖_M^2是基于流形分析的正則化項(半監督正則化項)。
? ? 在半監督降維框架中,最重要的是半監督正則化的推導和解決。為了在其中同時使用有標簽和無標簽的信息,鄰接矩陣M和歸一化拉普拉斯圖L被用來定義加權圖。如圖12所示,||f||_M^2被導出并求解。
圖12. 半監督正則化項的推導
構造出x后,可以通過將其加入到原來的降維算法的目標函數中來解決,算法過程基本相同。
五、實驗
? ? 在本節中,我們將把前面提到的降維算法和降維框架應用到機器學習和模式識別領域的一個真實任務中(以人臉識別為例),通過對實驗結果的統計分析,說明不同降維算法和框架之間的聯系和區別,以及對其算法效果的對比。
? ? 在這個實驗中,我們使用了以下人臉數據集,三個數據集的典型人臉如圖13所示。
? ? AT&T人臉數據。有40個不同的個體,每個個體有10個主題。每個人臉圖像被調整為56 x 46像素,有256個灰度等級。這些圖像是在不同時間拍攝的,改變了燈光、面部表情和面部細節。
? ? 耶魯大學(Yale)的人臉數據。這個數據集包含15個人的165張圖像。每張臉的圖像被調整為69 x 58像素,有256個灰度等級。這些圖像是在更多的配置下拍攝的,即照明(中光、左光和右光)、面部表情(快樂、正常、悲傷、困倦、驚訝和眨眼)以及帶或不帶眼鏡。
? ? UMIST臉部數據。這組數據包含20個人的564張圖像。每張臉部圖像都被調整為112 x 92像素,有256個灰度等級。這些圖像涵蓋了從側面到正面的一系列姿勢。
圖13. 人臉數據的例子。(a) AT&T的人臉例子;(b) 耶魯的人臉例子;(c) UMIST的人臉例子?
? ? 我們在上述三個數據集上測試了前文提到的降維算法及其優化和算法框架,實驗中分別探討了不同降維數、不同訓練集和測試集比例、不同數據集對算法和框架的影響,實驗結果列舉并繪制如下。
? ? 其中,每個實驗平均進行10次,以平均人臉識別率為結果,每次都進行交叉驗證,以保證實驗結果的準確性,然后通過幾何統計和多維度比較,對實驗結果進行分析并提出實驗結論。
表11 不同訓練集和測試集比例對降維方法的影響(AT&T)
請注意,括號內的數字是降維后效果最好的相應特征維度。對于PCA+LDA和PCA+MFA,第一個數字是PCA步驟中保留的能量百分比,對于KDA和KMFA,數字是內核參數序列號,對于DATER和TMFA,兩個數字分別是降維后的行和列號。
圖14?不同降維數對降維方法的影響(Yale)?
表12 不同數據集對降維方法的影響
| AT&T | Yale | UMIST | |
| PCA | 89.85% | 77.81% | 87.81% |
| LDA | 90.88% | 90.24% | 90.18% |
| LLE | 90.11% | 89.78% | 90.56% |
| 2DPCA | 90.88% | 86.8% | 90.24% |
| MMC | 91.44% | 90.87% | 92.71% |
| MFA | 96.0% | 94.8% | 95.2% |
| SSLDA | 92.66% | 93.02% | 93.17% |
? ? 根據表11、圖14和表12中不同因素對不同降維算法和框架的影響分析,可以得出以下幾個結論:
(1)對于不同的降維算法,隨著訓練集與測試集比例的增加,算法可以獲得更多的信息,實驗效果(人臉識別率)也相應提高。
(2)對于不同的降維算法,隨著降維次數的增加,算法可以保留更多的信息(有上限),實驗效果(人臉識別率)先上升后穩定或逐漸波動。
(3)對于不同的降維算法,在不同的數據集下,效果差異波動區間比較大,在不同的降維問題上要結合多種因素來考慮使用降維方法和框架。
(4) 總的來說,對于大多數降維的數據集,優化后的算法都顯示出相對于原始算法的優越性,并且在實驗中驗證了框架算法的正確性。?
六、結論
? ? 在本文中,我們總結了機器學習和模式識別領域的經典降維算法和降維框架。降維算法部分包括各種經典算法的原理、公式推導和算法過程,以及它們在線性降維、流動學習、核方法(監督、無監督和半監督)中的優化算法。
? ? 降維框架部分將各經典降維方法分別統一在圖嵌入框架和半監督框架這兩個經典降維框架的視角下,并以此探討和分析了降維框架的設計和構建方法,分析了以降維框架為平臺開發新算法的步驟。
? ? 此外,通過降維算法和降維框架在不同任務的數據集實驗中的應用以及實驗結果的統計分析比較,說明了各算法和框架之間的聯系和區別。
七、主要參考文獻
1.周志華《機器學習》
[1]?Yangqiu Song, “A unified framework for semi-supervised dimensionality reduction”, Jan 2008.
[2] X. He, S. Yan, Y. Hu, P. Niyogi, H. Zhang, Face recognition using laplacianfaces, IEEE Trans. Pattern Anal. Mach. Intell. 27 (3) (2005) 328–340.
[3] J. Ye, Least squares linear discriminant analysis, in: International Conference on Machine Learning, 2007, pp. 1087–1093.
[4] W. Du, K. Inoue, K. Urahama, Dimensionality reduction for semisupervised face recognition, in: Proceedings of the Fuzzy Systems and Knowledge Discovery, 2005, pp. 1–10.
[5] D. Zhang, Z.-H. Zhou, S. Chen, Semi-supervised dimensionality reduction, in: SIAM Conference on Data Mining (SDM), 2007.
[6]?P.N. Belhumeur, J.P. Hespanha, D.J. Kriegman, Fisherfaces: recognition using class specific linear projection, IEEE Trans. Pattern Anal. Mach. Intell. 19 (7) (1997) 711–720.
[7]?A. Batur and M. Hayes, “Linear Subspaces for Illumination Robust Face Recognition,” Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 296-301, Dec. 2001.
[8]?I. Joliffe, Principal Component Analysis. Springer-Verlag, 1986.
[9]?A.M. Martinez and A.C. Kak, “PCA versus LDA,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pp. 228-233, Feb. 2001.
[10]?Shuicheng Yan, Member “Graph Embedding and Extensions: A General Framework for?Dimensionality Reduction, ”IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 29, NO. 1, JANUARY 2007
[11] K.-R. Mu¨ller, S. Mika, G. Ra¨tsch, K. Tsuda, and B. Scho¨lkopf, “An Introduction to Kernel-Based Learning Algorithms,” IEEE Trans. Neural Networks, vol. 12, no. 2, pp. 181-201, 2001.
[12] M.H. Yang, “Kernel Eigenfaces vs. Kernel Fisherfaces: Face Recognition Using Kernel Methods,” Proc. Fifth IEEE Int’l Conf. Automatic Face and Gesture Recognition, pp. 215-220, May 2002.
[13] P.N. Belhumeur, J.P. Hespanha, and D.J. Kriengman, “Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 711-720, July 1997.
[14] H. Yu and J. Yang, “A Direct LDA Algorithm for HighDimensional Data—With Application to Face Recognition,”Pattern Recognition, vol. 34, no. 10, pp. 2067-2070, 2001.
[15] L. Sirovich and M. Kirby, “Low-dimensional procedure for the characterization of human faces,” J. Opt. Soc. America A Opt. Image Sci. Vis., vol. 4, no. 3, pp. 519–524, 1987.
[16] M. Turk and A. Pentland, “Eigenfaces for recognition,” J. Cogn. Neurosci., vol. 3, no. 1, pp. 71–86, Jan. 1991.
[17] W.-H. Yang and D.-Q. Dai, “Two-dimensional maximum margin feature extraction for face recognition,” IEEE Trans. Syst., Man, Cybern. B,Cybern., vol. 39, no. 4, pp. 1002–1012, Aug. 2009.
[18] A.J. Smola, S. Mika, B. Scho¨lkopf, and R.C. Williamson, “Regularized Principal Manifolds,” J. Machine Learning Research, vol. 1, pp. 179-209, June 2001.
[19] M. Belkin and P. Niyogi, “Laplacian Eigenmaps for Dimensionality Reduction and Data Representation,” Neural Computation, vol. 15, no. 6, pp. 1373-1396, 2003.
[20] H.S. Seung and D.D. Lee, “The Manifold Ways of Perception,”Science, vol. 290, pp. 2268-2269, Dec. 2000.
[21] T. Lin, H. Zha, and S. Lee, “Riemannian Manifold Learning forNonlinear Dimensionality Reduction,” Proc. Ninth European Conf. Computer Vision, pp. 44-55, May 2006.
[22] M. Balasubramanian, E.L. Schwartz, J.B. Tenenbaum, V. de Silva, and J.C. Langford, “The Isomap Algorithm and Topological Stability,” Science, vol. 295, p. 7a, Jan. 2002.
[23] F.S. Samaria, A.C. Harter, Parameterisation of a stochastic model for human face identification, in: IEEE Workshop on Applications of Computer Vision, 1994, pp. 138–142.
[24] A. Georghiades, P. Belhumeur, D. Kriegman, From few to many: Illumination cone models for face recognition under variable lighting and pose, IEEE Trans. Pattern Anal. Mach. Intell. 23 (6) (2001) 643–660.
[25] D. Graham, N. Allinson, Characterizing virtual eigensignatures for general purpose face recognition, Face Recognition: From Theory to Appl. 163 (1998) 446–456.
總結
以上是生活随笔為你收集整理的机器学习——经典降维算法与框架综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2022/10/07
- 下一篇: 香水白皮书指出,中国香水消费客单价远超美