维度约简
LCA獨立成分分析
1:FA 因素分析
2:雞尾酒會問題
1:問題描述
- N個人在意見房間里面開party,在每一個時刻都有n個人一起說話,被收集器采集到。結(jié)束之后,我們得到了m個聲音的樣例,我們?nèi)绾螐倪@m個樣本中,分離n個人的聲音
2:盲源和相關(guān)性
- 盲源分離
- 假設(shè)數(shù)據(jù)來自于不同的物理過程,數(shù)據(jù)之間是沒有關(guān)系的
- 相關(guān)性
- 協(xié)方差
- cov(x,y) = E(XY) - E(X)E(Y)
- 如果兩個變量是獨立的,則X,Y沒關(guān)系,此時E(XY) = E(X)E(Y)
- 此時的協(xié)方差為0
- 如果協(xié)方差為0,則不一定是獨立的
- 但是我們稱之為不相關(guān)的
- 協(xié)方差
3:過程
x1 = as1 + bs2
x2 = cs1 + ds2
則 x =As ,接的 s = A-1x
s = A-1X =Wx
令 z = A^TW ,構(gòu)造 y = W^TAs = z^Ts
y是s的線性組合,其非高斯性最大化等價z中只有一個非零元素
- 基本假設(shè)
- 數(shù)據(jù)源是相互獨立的,但是混合的數(shù)據(jù)不相互獨立
- 數(shù)據(jù)源必須是非高斯變量,但是混合數(shù)據(jù)可以服從高斯分布
4:獨立性的評價方法
- 熵
- 負熵 J(y) = H(z) - H(y)
- 使用近似的方法 J(y) = (E(G(y)) - E(G(z))) ^ 2
- 在所有的等方差的隨機變量中,**高斯變量的熵最大,**由中心極限定理可以直到,若干個有限方差隨機變量(無論是否服從何種分布)的和,越逼近高斯分布。反言之,原信號比混合信號的非高斯i性更強,用負熵度量其非高斯性。
5:獨立成分分析任務(wù)
- 已經(jīng)直到信號S,經(jīng)過混合矩陣變換后的信息是:X = AS
- 對交疊的信號X,求解混矩陣W,使得 Y = WX各個分量相互獨立
- 求解W的過程并不一定是A的逆,Y也不是S的近似,只是為了使得Y分量之間相互獨立
- 目的是從僅有的觀測數(shù)據(jù)X出發(fā)尋找一個解決混合的矩陣。
| 將數(shù)據(jù)降維并且提取出不相關(guān)的屬性 | 數(shù)據(jù)降維并提取出互相獨立的 |
| 重構(gòu)誤差最小,最能夠代表原事物的特征 | 每個分量最大化的獨立 |
| 最大方差的方向,各個方向是正交的 | 最大獨立的方向,各個方向是獨立的 |
| 信息提取的過程,將原始數(shù)據(jù)降維,現(xiàn)在稱為ICA數(shù)據(jù)標準化的預(yù)處理步驟 | 統(tǒng)計獨立的分享的線性組合,是一個解混過程 |
3:LLE 局部線性嵌入
1:原則
- 努力去保留相鄰數(shù)據(jù)之間的關(guān)系
- 數(shù)據(jù)集中的數(shù)據(jù)用其局部近鄰線性近似
2:近鄰點
- 個數(shù)
- 距離
3:權(quán)重約束
- 離得遠,就是Wij = 0
- 數(shù)據(jù)用局部緊鄰線性的近似
ε=∑i=1N(xi?∑j=1NWijxj)2\varepsilon=\sum_{i=1}^{N}\left(\mathbf{x}_{i}-\sum_{j=1}^{N} \mathbf{W}_{i j} \mathbf{x}_{j}\right)^{2} ε=i=1∑N?(xi??j=1∑N?Wij?xj?)2
4:算法
- 找到每個點的近鄰點
- 根據(jù)約束條件計算讓原始目標最小的權(quán)矩陣W
- 根據(jù)約束條件計算讓低維優(yōu)化目標的低維向量yi
4:ISOMAP 等距特征映射
- 映射后努力去保留相鄰數(shù)據(jù)之間的關(guān)系
- 通過檢查所有點對間的距離和計算全局測地線的方法來最小化全局誤差
- MDS使用了成對樣本之間的相似性,使得在低維空間中樣本在空間中耕的距離和高維空間中的樣本相似度盡可能的保持一致。
- 已知高維上樣本點兩兩之間的距離,嘗試在低維上(通常是2維,但是可以是任意維)找到一組新的樣本點,使降維后兩點間的距離與它們在高維上的距離相等
1:五個要素
- 客體,幾種類別,比如西瓜的好壞,好瓜或者是壞瓜
- 主體:訓(xùn)練數(shù)據(jù),N個
- 準則:用以評判客體優(yōu)劣的標準,P
- 準則權(quán)重:主題衡量準則
- 主體權(quán)重
已經(jīng)知道 所有點對之間的距離,尋找第i個向量,使得他們的距離相等
min?x1,…,xI∑i<j(∥xi?xj∥?δi,j)2\min _{x_{1}, \ldots, x_{I}} \sum_{i<j}\left(\left\|x_{i}-x_{j}\right\|-\delta_{i, j}\right)^{2} x1?,…,xI?min?i<j∑?(∥xi??xj?∥?δi,j?)2
2:流形空間
- 任何對象都可以看作是低維流形在高維空間中的嵌入
- 距離
- 球上兩點的距離,是測地線距離,而不是歐式距離
3:測地線距離
- 兩點之中距離最短的線(各點的主曲率方向均和該點上曲面法線重合)
- 在二維平面上是直線,在球面上是大圓弧
4:算法思路
- 創(chuàng)建所有點對之間的距離
- 確定每個點的鄰近點,并且做一個權(quán)表G
- 通過找最短的路徑法估計測地線距離dG
- dijkstra算法
- 寬度優(yōu)先搜索
- 把經(jīng)典的MDS算法用于一系列的dG
參考
獨立成分分析 ( ICA ) 與主成分分析 ( PCA ) 的區(qū)別在哪里:https://www.zhihu.com/question/28845451
LLE算法:https://baike.baidu.com/item/LLE%E7%AE%97%E6%B3%95/13349157?fr=aladdin
MDS(multidimensional scaling)多維尺度分析:https://blog.csdn.net/yang_xian521/article/details/7301121?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs&dist_request_id=1332049.10918.16194341797228901&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.baidujs
總結(jié)
- 上一篇: 库函数和 系统调用
- 下一篇: word文档出现方格乱码