典型关联分析CCA(canonical correlation analysis)
生活随笔
收集整理的這篇文章主要介紹了
典型关联分析CCA(canonical correlation analysis)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
先看兩個數學概念:
相關系數(參看百度百科)
? ? ?相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度
相關關系是一種非確定性的關系,相關系數是研究變量之間線性相關程度的量。由于研究對象的不同,相關系數有如下幾種定義方式:
簡單相關系數:又叫相關系數或線性相關系數,一般用字母r 表示,用來度量兩個變量間的線性關系。
復相關系數:又叫多重相關系數。復相關是指因變量與多個自變量之間的相關關系。例如,某種商品的季節性需求量與其價格水平、職工收入水平等現象之間呈現復相關關系。
典型相關系數:是先對原來各組變量進行主成分分析,得到新的線性關系的綜合指標,再通過綜合指標之間的線性相關系數來研究原各組變量間相關關系。
相關系數矩陣(也叫相關矩陣)
設(X1,X2,X3...Xn)是一個n維隨機變量,任意Xi和Xj的相關系數Pij(I,j=1,2,3…n)存在,則以Pij為元素的n階矩陣稱為該維隨機向量的相關矩陣,記作R,即
其中
在一元統計分析中,用相關系數來衡量兩個隨機變量的線性相關關系,用復相關系數研究一個隨機變量與多個隨機變量的線性相關關系。而CCA則是利用綜合變量對之間的相關關系來反應兩組指標之間的整體相關性的多元統計分析方法。 CCA典型關聯分析CCA的基本原理:CCA從整體上把握兩組指標之間的相關關系,首先,在每組變量中尋找出變量的線性組合,使得兩組的線性組合之間具有最大的相關系數;然后選取和已經挑選出的這對線性組合不相關的另一對線性組合,并使其相關系數最大,如此下去,直到兩組變量的相關性被提取完畢為止。被選出的線性組合配對稱為典型變量,它們的相關系數稱為典型相關系數。 CCA簡單相關系數描述兩組變量的相關關系的缺點:只考慮了組與組的相關,并沒有考慮組內的相關。兩組簡單相關系數很多,使問題顯得復雜,難以從整體描述。 ? ? 典型相關是簡單相關,多重相關的推廣。典型相關是研究兩組變量之間相關性的一種統計學習方法,也是一種降維技術。 典型相關分析的實質就是在兩組隨機變量中選取若干個有代表性的綜合指標(變量的線性組合),用這些指標的相關關系來表示原來的兩組變量的相關關系。這在兩組變量的相關分析中,可以起到合理的簡化作用。當典型相關系數足夠大時,可以像回歸分析一樣由一組變量的數值預測另一組變量的線性組合的數值。 計算方法: 第一步假設每組變量的線性組合和求得已知變量的相關系數矩陣,matlab里面有函數cov可以計算協方差:
第二步求得假設的線性組合的方差,協方差和相關系數:
第三步引入限制條件,求相關系數的最大值,這是其中的一種限制條件,可以求得第一對典型變量。
從上式就可以看出問題轉化為了求特征值問題,λ2就是特征值,a和b就是對應的特征向量。也就是求出最大特征值及其對應的特征向量。 這就是第一對典型變量對的求法。 第二對的典型變量對的求法就是更改一下第一對的求法里面的限制條件,在第三步里面。 第二對典型變量對的求法:
按照求第一對的方法解此方程就可以求得第二對典型變量對。 以此類推,然后可以得到最終的一條規律,那就是:
其中 matlab自帶CCA函數 >> [A,B,R,U,V] = canoncorr(X,Y);
參考文獻: http://www.cnblogs.com/boostable/p/lec_canonical_correlation_analysis.html
http://blog.csdn.net/u012409883/article/details/17091861 ? 此文章有實例
總結
以上是生活随笔為你收集整理的典型关联分析CCA(canonical correlation analysis)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos7.7 clamav 查杀病
- 下一篇: 通配符&正则表达式&特殊