划重点!通俗解释协方差与相关系数
關鍵時刻,第一時間送達!
閱讀本文需要 6 分鐘
什么是協方差(Covariance)?
協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。
以上是某百科的解釋。等等!是不是還是覺得比較晦澀難懂呢?對于非理工科的小白來說,如何清晰、形象地理解協方差和相關系數的數學概念呢?沒關系,今天紅色石頭就通過形象生動的例子,通俗易懂地給大家來講一講協方差與相關系數。
1
協方差是怎么來的?
簡單地來說,協方差就是反映兩個變量 X 和 Y 的相互關系。這種相互關系大致分為三種:正相關、負相關、不相關。
什么是正相關呢?例如房屋面積(X)越大,房屋總價(Y)越高,則房屋面積與房屋總價是正相關的;
什么是負相關呢?例如一個學生打游戲的時間(X)越多,學習成績(Y)越差,則打游戲時間與學習成績是負相關的;
什么是不相關呢?例如一個人皮膚的黑白程度(X)與他的身體健康程度(Y)并無明顯關系,所以是不相關的。
我們先來看第一種情況,令變量 X 和變量 Y 分別為:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]
在坐標上描繪出 X 和 Y 的聯合分布:
顯然,Y 在整體趨勢上是隨著 X 的增加而增加的,即 Y 與 X 的變化是同向的。這種情況,我們就稱 X 與 Y 是正相關的。
我們再來看第二種情況,令變量 X 和變量 Y 分別為:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [35 35 29 29 28 28 27 26 26 23 21 22 25 19 16 19 20 16 15 16]
在坐標上描繪出 X 和 Y 的聯合分布:
顯然,Y 在整體趨勢上是隨著 X 的增加而減少的,即 Y 與 X 的變化是反向的。這種情況,我們就稱 X 與 Y 是負相關的。
我們再來看第三種情況,令變量 X 和變量 Y 分別為:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [16 16 28 17 20 26 20 17 21 15 12 29 24 25 16 15 21 13 17 25]
在坐標上描繪出 X 和 Y 的聯合分布:
顯然,Y 在整體趨勢上與 X 的并無正相關或者負相關的關系。這種情況,我們就稱 X 與 Y 是不相關的。
回過頭來,我們來看 X 與 Y 正相關的情況,令 EX、EY 分別是 X 和 Y 的期望值。什么是期望呢?在這里我們可以把它看成是平均值,即 EX 是變量 X 的平均值,EY 是變量 Y 的平均值。把 EX 和 EY 在圖中表示出來得到下面的圖形:
上圖中,整個區域被 EX 和 EY 分割成 I、II、III、IV 四個區域,且 X 和 Y 大部分分布在 I、III 區域內,只有少部分分布在 II、IV 區域內。
在區域 I 中,滿足 X>EX,Y>EY,則有 (X-EX)(Y-EY)>0;
在區域 II 中,滿足 X<EX,Y>EY,則有 (X-EX)(Y-EY)<0;
在區域 III 中,滿足 X<EX,Y<EY,則有 (X-EX)(Y-EY)>0;
在區域 IV 中,滿足 X>EX,Y<EY,則有 (X-EX)(Y-EY)<0。
顯然,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 正相關時,數據大部分是分布在 I、III 區域內,只有少部分分布在 II、IV 區域。因此,從平均角度來看,正相關滿足:
上式表示的是?(X-EX)(Y-EY) 的期望大于零,即?(X-EX)(Y-EY) 的平均值大于零。
然后,再來看 X 和 Y 負相關的情況:
上圖中,X 和 Y 大部分分布在 II、IV 區域內,只有少部分分布在 I、III 區域內。
同樣,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 負相關時,數據大部分是分布在 II、IV 區域內,只有少部分分布在 I、III 區域。因此,從平均角度來看,負相關滿足:
上式表示的是?(X-EX)(Y-EY) 的期望小于零,即?(X-EX)(Y-EY) 的平均值小于零。
最后,再來看?X 和 Y 不相關的情況:
上圖中,X 和 Y 在 I、II、III、IV 區域內近似均勻分布。
同樣,在區域 I、III 中,(X-EX)(Y-EY)>0;在區域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 不相關時,數據在各區域內均勻分布,從平均角度來看,不相關滿足:
上式表示的是?(X-EX)(Y-EY) 的期望等于零,即?(X-EX)(Y-EY) 的平均值等于零。
綜上所述,我們得到以下結論:
當 X 和 Y 正相關時:
當 X 和 Y 負相關時:
當 X 和 Y 不相關時:
因此,我們就引出了協方差的概念,它是表示 X 和 Y 之間相互關系的數字特征。我們定義協方差為:
根據之前討論的結果,
當 Cov(X,Y) > 0 時,X 與 Y 正相關;
當 Cov(X,Y) < 0 時,X 與 Y 負相關;
當 Cov(X,Y) = 0 時,X 與 Y 不相關。
值得一提的是,E 代表求期望值。也可以用平均值來計算協方差:
這里,之所以除以 N-1 而不是 N 的原因是對總體樣本期望的無偏估計。順便提一下,如果令 Y = X,則協方差表示的正是 X 的方差。
下面,我們根據協方差的公式,分別計算上面三種情況下 X 與 Y 的協方差。
X 與 Y 正相關時,Cov(X,Y) = 37.3684;
X 與 Y 負相關時,Cov(X,Y) = -34.0789;
X 與 Y 不相關時,Cov(X,Y) = -1.0263。
2
相關系數與協方差什么關系?
我們已經知道了什么是協方差以及協方差公式是怎么來的,如果知道兩個變量 X 與 Y 的協方差與零的關系,我們就能推斷出 X 與 Y 是正相關、負相關還是不相關。那么有一個問題:協方差數值大小是否代表了相關程度呢?也就是說如果協方差為 100 是否一定比協方差為 10 的正相關性強呢?
請看下面這個例子!
變量 X1 與 Y1 分別為:
X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]
變量 X2 和 Y2 分別為:
X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]
Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]
X1、Y1 和 X2、Y2 分別聯合分布圖,如下所示:
顯然,從圖中可以看出,X1、Y1 和 X2、Y2 都呈正相關,而且 X1 與 Y1 正相關的程度明顯比 X2 與 Y2 更大一些。接下來,我們計算兩幅圖的協方差看看是不是這樣。
Cov(X1,Y1) = 37.5526
Cov(X2,Y2) = 3730.26
意外!X2 與 Y2 的協方差竟然比 X1 與 Y1 的協方差還大 100 倍。看來并不是協方差越大,正相關程度越高。這到底是為什么呢?
其實,出現這種情況的原因是兩種情況數值變化的幅值不同(或者量綱不同)。計算協方差的時候我們并沒有把不同變量幅值差異性考慮進來,在比較協方差的時候也就沒有一個統一的量綱標準。
所以,為了消除這一影響,為了準確得到變量之間的相似程度,我們需要把協方差除以各自變量的標準差。這樣就得到了相關系數的表達式:
可見,相關系數就是在協方差的基礎上除以變量 X 和 Y 的標準差。其中標準差的計算公式為:
為什么除以各自變量的標準差就能消除幅值影響呢?這是因為標準差本身反映了變量的幅值變化程度,除以標準差正好能起到抵消的作用,讓協方差標準化。這樣,相關系數的范圍就被歸一化到 [-1,1] 之間了。
下面,我們就來分別計算上面這個例子中 X1、Y1 和 X2、Y2 的相關系數。
ρ(X1,Y1) = 0.9939
ρ(X2,Y2) = 0.9180
好了,我們得到 X1 與 Y1 的相關系數大于 X2 與 Y2 的相關系數。這符合實際情況。也就是說,根據相關系數,我們就能判定兩個變量的相關程度,得到以下結論:
相關系數大于零,則表示兩個變量正相關,且相關系數越大,正相關性越高;
相關系數小于零,則表示兩個變量負相關,且相關系數越小,負相關性越高;
相關系數等于零,則表示兩個變量不相關。
回過頭來看一下協方差與相關系數的關系,其實,相關系數是協方差的標準化、歸一化形式,消除了量綱、幅值變化不一的影響。實際應用中,在比較不同變量之間相關性時,使用相關系數更為科學和準確。但是協方差在機器學習的很多領域都有應用,而且非常重要!更多協方差的應用紅色石頭以后會給大家慢慢講解哦!
參考文獻:
https://www.cnblogs.com/tsingke/p/6273970.html
https://www.zhihu.com/question/20852004
推薦閱讀
【干貨】我的機器學習入門路線圖
如何在免費云端運行 Python 深度學習框架?
6 種激活函數核心知識點,請務必掌握!
總結
以上是生活随笔為你收集整理的划重点!通俗解释协方差与相关系数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于肉鸡的一些使用教程
- 下一篇: C/C++只做经典编程语言