「协方差」与「相关系数」的概念
一、協方差:
可以通俗的理解為:兩個變量在變化過程中是同方向變化?還是反方向變化?同向或反向程度如何?
你變大,同時我也變大,說明兩個變量是同向變化的,這時協方差就是正的。
你變大,同時我變小,說明兩個變量是反向變化的,這時協方差就是負的。
從數值來看,協方差的數值越大,兩個變量同向程度也就越大。反之亦然。
咱們從公式出發來理解一下:
公式簡單翻譯一下是:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和并求出均值(其實是求“期望”,但就不引申太多新概念了,簡單認為就是求均值了)。
下面舉個例子來說明吧:
比如有兩個變量X,Y,觀察t1-t7(7個時刻)他們的變化情況。
簡單做了個圖:分別用紅點和綠點表示X、Y,橫軸是時間。可以看到X,Y均圍繞各自的均值運動,并且很明顯是同向變化的。
總結一下,如果協方差為正,說明X,Y同向變化,協方差越大說明同向程度越高;如果協方差為負,說明X,Y反向運動,協方差越小說明反向程度越高。
--------LINE---------
一般的同學看到above the line的內容就ok了。但有一些愛鉆研的同學,可能會進一步提問:
另外,如果你還鉆牛角尖,說如果t1,t2,t3……t7時刻X,Y都在增大,而且X都比均值大,Y都比均值小,這種情況協方差不就是負的了?7個負值求平均肯定是負值啊?但是X,Y都是增大的,都是同向變化的,這不就矛盾了?
這個更好解釋了:這種情況不可能出現!
因為,你的均值算錯了……
好了,現在,對于協方差應該有點感覺了吧?
二、相關系數:
對于相關系數,我們從它的公式入手。一般情況下,相關系數的公式為:
翻譯一下:就是用X、Y的協方差除以X的標準差和Y的標準差。
所以,相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標準化后的特殊協方差。
既然是一種特殊的協方差,那它:
1、也可以反映兩個變量變化時是同向還是反向,如果同向變化就為正,反向變化就為負。
2、由于它是標準化后的協方差,因此更重要的特性來了:它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
比較抽象,下面還是舉個例子來說明:
這是為什么呢?
因為以上兩種情況下,在X、Y兩個變量同向變化時,X變化的幅度不同,這樣,兩種情況的協方差更多的被變量的變化幅度所影響了。
所以,為了能準確的研究兩個變量在變化過程中的相似程度,我們就要把變化幅度對協方差的影響,從協方差中剔除掉。于是,相關系數就橫空出世了,就有了最開始相關系數的公式:
所以標準差描述了變量在整體變化過程中偏離均值的幅度。協方差除以標準差,也就是把協方差中變量變化幅度對協方差的影響剔除掉,這樣協方差也就標準化了,它反應的就是兩個變量每單位變化時的情況。這也就是相關系數的公式含義了。
同時,你可以反過來想象一下:既然相關系數是協方差除以標準差,那么,當X或Y的波動幅度變大的時候,它們的協方差會變大,標準差也會變大,這樣相關系數的分子分母都變大,其實變大的趨勢會被抵消掉,變小時也亦然。于是,很明顯的,相關系數不像協方差一樣可以在+∞+\infty+∞ 到?∞-\infty?∞間變化,它只能在+1到-1之間變化(相關系數的取值范圍在+1到-1之間變化可以通過施瓦茨不等式來證明,有些復雜,這里就不贅述了,有興趣的可以google下)。
總結一下,對于兩個變量X、Y,
當他們的相關系數為1時,說明兩個變量變化時的正向相似度最大,即,你變大一倍,我也變大一倍;你變小一倍,我也變小一倍。也即是完全正相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為正數的直線,所以X、Y是線性關系的)。
隨著他們相關系數減小,兩個變量變化時的相似度也變小,當相關系數為0時,兩個變量的變化過程沒有任何相似度,也即兩個變量無關。
當相關系數繼續變小,小于0時,兩個變量開始出現反向的相似度,隨著相關系數繼續變小,反向相似度會逐漸變大。
當相關系數為-1時,說明兩個變量變化的反向相似度最大,即,你變大一倍,我變小一倍;你變小一倍,我變大一倍。也即是完全負相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為負數的直線,所以X、Y也是線性關系的)。
好了,講了這么多,不知你看完是否對相關系數也有了一些感覺?
原文作者GRAYLAMB
https://www.zhihu.com/question/20852004
總結
以上是生活随笔為你收集整理的「协方差」与「相关系数」的概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: wifi万能钥匙app怎么用
- 下一篇: 中国联通app怎么退订流量包(《中国》第