数据降维方法分类
數(shù)據(jù)降維基本原理是將樣本點(diǎn)從輸入空間通過(guò)線性或非線性變換映射到一個(gè)低維空間,從而獲得一個(gè)關(guān)于原數(shù)據(jù)集緊致的低維表示。
數(shù)據(jù)降維工具箱drtoolbox中眾多算法,這里簡(jiǎn)單做個(gè)分類。
因?yàn)楹芏嗖](méi)有仔細(xì)了解,在此次只對(duì)八種方法做分類:主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)、等距映射(Isomap)、局部線性嵌入(Locally Linear Embedding,LLE)、Laplacian 特征映射(Laplacian Eigenmaps)、局部保留投影(Local Preserving Projection,LPP)、局部切空間排列(Local Tangent Space Alignment,LTSA)、最大方差展開( Maximum Variance Unfolding,MVU)
線性/非線性
線性降維是指通過(guò)降維所得到的低維數(shù)據(jù)能保持高維數(shù)據(jù)點(diǎn)之間的線性關(guān)系。線性降維方法主要包括PCA、LDA、LPP(LPP其實(shí)是Laplacian Eigenmaps的線性表示);非線性降維一類是基于核的,如KPCA,此處暫不討論;另一類就是通常所說(shuō)的流形學(xué)習(xí):從高維采樣數(shù)據(jù)中恢復(fù)出低維流形結(jié)構(gòu)(假設(shè)數(shù)據(jù)是均勻采樣于一個(gè)高維歐式空間中的低維流形),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射。非線性流形學(xué)習(xí)方法有:Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU 整體來(lái)說(shuō),線性方法計(jì)算塊,復(fù)雜度低,但對(duì)復(fù)雜的數(shù)據(jù)降維效果較差。監(jiān)督/非監(jiān)督
監(jiān)督式和非監(jiān)督式學(xué)習(xí)的主要區(qū)別在于數(shù)據(jù)樣本是否存在類別信息。非監(jiān)督降維方法的目標(biāo)是在降維時(shí)使得信息的損失最小,如PCA、LPP、Isomap、LLE、Laplacian Eigenmaps、LTSA、MVU;監(jiān)督式降維方法的目標(biāo)是最大化類別間的辨別信,如LDA。事實(shí)上,對(duì)于非監(jiān)督式降維算法,都有相應(yīng)的監(jiān)督式或半監(jiān)督式方法的研究。全局/局部
局部方法僅考慮樣品集合的局部信息,即數(shù)據(jù)點(diǎn)與臨近點(diǎn)之間的關(guān)系。局部方法以LLE為代表,還包括Laplacian Eigenmaps、LPP、LTSA。 全局方法不僅考慮樣本幾何的局部信息,和考慮樣本集合的全局信息,及樣本點(diǎn)與非臨近點(diǎn)之間的關(guān)系。全局算法有PCA、LDA、Isomap、MVU。 由于局部方法并不考慮數(shù)據(jù)流形上相距較遠(yuǎn)的樣本之間的關(guān)系,因此,局部方法無(wú)法達(dá)到“使在數(shù)據(jù)流形上相距較遠(yuǎn)的樣本的特征也相距較遠(yuǎn)”的目的。以下是對(duì)一組三維數(shù)據(jù)(900樣本)降到一維,應(yīng)用八種算法的時(shí)間對(duì)比:
(轉(zhuǎn)載請(qǐng)注明作者和出處:http://blog.csdn.net/xiaowei_cqu?未經(jīng)允許請(qǐng)勿用于商業(yè)用途)
總結(jié)
- 上一篇: 数据降维工具箱drtoolbox
- 下一篇: 搭建QT和VS2010集成开发环境