协方差原理
轉載自:https://blog.csdn.net/qq_31073871/article/details/81057030
 ?
 ??先從方差開始,我們有一組樣本x1、x2、x3····xn,這組樣本的均值為EX,每一個樣本都與EX之間存在誤差,那么這組樣本的方差被定義為:所有誤差的和的均值,也即[Σ(xi-EX)^2]/(n-1),
 方差的作用就是用來“衡量樣本偏離均值的程度”。
下面開始看協方差:
 
 ??仔細觀察上述定義式,可知:如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值時另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大于自身的期望值時另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。
??下面再從直觀上理解一下上面這段話,假設我們拿到了一組(X, Y)的樣本如下圖(a)所示。然后讓這組樣本中的X、Y各自減掉自己的期望,得到新的一組樣本,顯然這組新樣本的均值就變成了(0,0),這組新樣本會分布在原點周圍,如下圖(b)所示。如果我們再把圖b中的樣本的每一個點的X乘以Y得到積,把積畫在圖(c)中,那么圖b的二維樣本就會退化為一系列一維的點,而且,下圖b的一三象限的點的積會分布到下圖c的正半軸,二四象限的點會分布到負半軸,,根據上面的定義式,圖c中樣本的均值,就是圖1中XY的協方差,從直觀上看它的均值接近于0,物理意義就是,X和Y是幾乎完全不相關。
??注意:上面的協方差定義中,EX和EY是數學期望,是個精確的理論值,而不是樣本均值(樣本數目無窮多時,樣本均值會無窮接近于數學期望,這是大數定律之一,證明過程大學都學過的,可惜忘干凈了),但是X、Y在沒有理論概率分布表達式的情景中,我們只能用n個樣本的和除以(n-1)來代替數學期望,為什么是除以n-1,這個問題在概率論的課上是由理論依據的,樣本的和只有除以n-1才是數學期望的無偏估計(這個問題以前自己寫過詳細的證明步驟,現在也忘干凈了)。
??下面我們再來看一個X和Y正相關的例子,也即在某次我們同時對xy采樣時,當x的采樣值>x的均值時,y的樣本也一般是>y的均值。
 
??XY的采樣值如上圖a所示,各自減掉自己的均值后,得到的新樣本如圖b所示,圖b中的樣本中的每個點把x*y,得到一維樣本如圖c所示,顯然,由圖b轉換為圖c的時候,只有圖b中第二象限的兩個點落到了圖c的負半軸,圖b的其余點都落到了圖c的正半軸,圖c中樣本的均值顯然是個正值,這個正值就是圖a的樣本的協方差。
??圖c的均值很大,也就是說圖a的樣本的協方差很大,那么分析一下圖c的均值大的原因,那是因為圖b中的點x*y的積大,為什么積這么大,因為圖a的X、Y的樣本偏離各自的均值EX、EY太大了。換句話說,如何才能使得圖c中的樣本均值變小呢,也即如何才能使圖a的樣本的協方差變小呢?顯然有兩個辦法:(1)讓圖c中的每一個點的數值變小,也即讓圖b中的點都靠近原點,也即讓圖a的點都靠近X、Y各自的均值;(2)增加圖c中負半軸的點的數量,也即增加圖b中二四象限中的點的數量,也即讓圖a的點在反對角線上也出現一些。這兩種方法也就指出了,協方差小的原因:一是X、Y各自的方差要小,二是X、Y相關性要弱。
 ??
 ??根據以上兩組圖形,以及分析,我們得知:
 兩個因素會影響協方差的值:
 1、兩個變量各自的方差不變的情況下,兩個變量的正相關性越強烈,協方差越大,負相關性越強烈,協方差越小;
 2、兩個變量的相關性不變的情況下,x或y變量的方差越大,協方差的絕對值越大。(“或”的意思是,x的方差大,或者y的大,或者它倆的都大);
 ??因素1對協方差的影響是“絕對”大小(帶符號),因素2影響的是“絕對值”的大小
??
 ??反過來的推論: 如果協方差的值是個很大的正數,我們可以得到兩個結論:
 (1) 兩者有很大概率是正相關的;
 (2) 這個值很大到底是因為①:正相關很強烈造成的呢?還是②:x或y的方差很大造成的呢,這個①和②我們是區分不出來的
 ??注意上面的(1)我們說很大概率正相關,而不是說一定正相關,這么大的正值,難道還不是強烈正相關嗎?!!原因是什么?就在于②,因為采樣并不能完全代表真實情況,假設兩者是微弱正相關,或者不相關,或者微弱負相關,這3種情況采樣的結果計算出的協方差都有可能是正值,這時即使X、Y不是強烈正相關,只要x或y的方差大,仍然會造成協方差變成大的正數。
 那么如何衡量正負相關性呢,顯然要把x或y的方差,從對協方差的影響中剔除掉,這樣協方差剩余的部分就能看出相關性的強烈程度了。剔除的方法也很簡單,協方差除以xy的標準差就行了。得出的結果就被成為相關系數
 ??
 ??為什么剔除信息的方法是除以標準差呢?其實從協方差的定義式就能看出端倪,E[(X-EX)(Y-EY)],顯然協方差的絕對值變大的根本原因就是每一個(X-EX)(Y-EY)變大
??上面講的是兩個變量之間的協方差,如果有n個變量X1、X2、···Xn,兩兩之間的協方差,就可以組成協方差矩陣,我們定義:
 
??那么上述n個變量的協方差矩陣就是:
 ,其中
 如果有:
那么Y的協方差矩陣為:
 
總結
                            
                        - 上一篇: 搬砖一天多少钱啊?
 - 下一篇: 求一个qq网名签名。