皮尔森相关系数算法
皮爾森相關系數(Pearson correlation coefficient)也稱皮爾森積矩相關系數(Pearson product-moment correlation coefficient) ,是一種線性相關系數。皮爾森相關系數是用來反映兩個變量線性相關程度的統計量。相關系數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。
定義:
兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商:
上式定義了總體相關系數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的協方差和標準差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:
r 亦可由
樣本點的標準分數均值估計,得到與上式等價的表達式:
其中
、
及
分別是對
樣本的標準分數、樣本平均值和樣本標準差。
公式詳解:
樣本的簡單相關系數一般用r表示,其中n 為樣本量, 分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的取值在-1與+1之間,若r>0,表明兩個變量是正相關,即一個變量的值越大,另一個變量的值也會越大;若r<0,表明兩個變量是負相關,即一個變量的值越大另一個變量的值反而會越小。r 的絕對值越大表明相關性越強,要注意的是這里并不存在因果關系。若r=0,表明兩個變量間不是線性相關,但有可能是其他方式的相關(比如曲線方式)
利用樣本相關系數推斷總體中兩個變量是否相關,可以用t 統計量對總體相關系數為0的原假設進行檢驗。若t 檢驗顯著,則拒絕原假設,即兩個變量是線性相關的;若t 檢驗不顯著,則不能拒絕原假設,即兩個變量不是線性相關的.
適用范圍
當兩個變量的標準差都不為零時,相關系數才有定義,皮爾遜相關系數適用于:
(1)兩個變量之間是線性關系,都是連續數據。
(2)兩個變量的總體是正態分布,或接近正態的單峰分布。
(3)兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
總結
- 上一篇: 在Release版本下使用VLD
- 下一篇: 中国载人航天官方Logo正式发布:渐变蓝