统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别
方差(Variance)
概率論
離散型隨機變量的數學期望:??,其中,是變量發生的概率。
連續型隨機變量的數學期望:?,其中,f(x)是概率密度。
方差值:,證明過程:
? ? ? ? ?假設:,則,則
? ? ? ? ?
統計學
?總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個標準定義的方差:
,其中,?為總體的均值,?為總體的標準差,?為總體的樣本數。
樣本方差,無偏方差,在實際情況中,總體均值是很難得到的,往往通過抽樣來計算,于是有樣本方差,計算公式如下:
或者,其中,?為樣本的均值,?為樣本的標準差,?為樣本的個數。
此處,為什么要將分母由n變成n-1,主要是為了實現無偏估計減小誤差,具體原理及推導公式可上網查閱,資料很多。
協方差(Covariance)
? ? ? ??協方差在概率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。
其中,與分別為兩個實數隨機變量與的數學期望,為,的協方差。
標準差(Standard Deviation)
? ? ? ? 標準差也被稱為標準偏差,在中文環境中又常稱均方差,是數據偏離均值的平方和平均后的方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度,只是由于方差出現了平方項造成量綱的倍數變化,無法直觀反映出偏離程度,于是出現了標準差,標準偏差越小,這些值偏離平均值就越少,反之亦然。
總體方差
?,其中,?為總體的均值,?為總體的標準差,?為總體的樣本數。
樣本方差
,其中,?為樣本的均值,?為樣本的標準差,?為樣本的個數。
標準誤(Standard error?of mean,SEM或SE)
? ? ? 樣本均值的標準誤
由固然存在的個體變異和抽樣造成的不同樣本均數之間的差異、樣本均數與總體均數之間的差異稱為均數的抽樣誤差(也稱標準誤),用于反映我們用樣本均數估計總體均數有多大的誤差。
若隨機變量均數為,方差為,則樣本均數的標準差(標準誤)為:。又根據正態分布原理,若隨機變量,則樣本均數。
實際應用中,總體標準差通常未知,需要用樣本標準差來估計標準誤。此時,均數標準誤的估計值為:
標準誤的大小與原變量的標準差成正比,與樣本含量的平方根成反比,因此,實際應用中可通過增加樣本含量來減少均數的標準誤,從而降低抽樣誤差。
例:2000年某研究所隨機調查某地健康成年男子27人,得到血紅蛋白的均數為125g/L,標準差為15g/L。試估計該樣均數的抽樣誤差。
注意:標準差描述的是度量值的變化,在此題中,標準差為15g/L,標準誤描述的是估計值的變化,在此題中,標準誤為2.89g/L,隨著樣本量n的增加,標準誤是會減小的,但是標準差是不變的。
樣本頻率的標準誤
從同一總體中隨機抽出觀察單位相等的多個樣本,樣本率與總體率及各樣本率之間都存在差異,稱為頻率的抽樣誤差。表示樣本頻率抽樣誤差大小的指標即為頻率的標準誤。
根據二項分布原理,若隨機變量,則樣本頻率的總體概率為,標準誤為。
頻率的標準誤愈小,用樣本頻率估計總體概率的可靠性愈好;反之,用樣本頻率估計總體概率的可靠性愈差。
實際應用中,總體概率通常未知,需要用樣本頻率來近似的代替。得到頻率標準誤的估計值為:
頻率的標準誤與樣本含量的平方根成反比,因此,增加樣本含量可以減少樣本頻率的抽樣誤差(標準誤)。
例:某市隨機調查了50歲以上的中老年婦女776人,其中患有骨質酥松癥者322人,患病率為41.5%,試計算該樣本頻率的抽樣誤差。
總體標準誤的估計值較小,說明用樣本患病率41.5%來估計患病率的可靠性較好。
均方誤差(mean-square error, MSE)
? ? ? ? 均方誤差是反映估計量與被估計量之間差異程度的一種度量,換句話說,參數估計值與參數真值之差的平方的期望值。MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度。
,其中表示估計量,表示被估計量。
均方根誤差(root mean squared error,RMSE)
均方根誤差亦稱標準誤差,是均方誤差的算術平方根。換句話說,是觀測值與真值(或模擬值)偏差(而不是觀測值與其平均值之間的偏差)的平方與觀測次數n比值的平方根,在實際測量中,觀測次數n總是有限的,真值只能用最可信賴(最佳)值來代替。標準誤差對一組測量中的特大或特小誤差反映非常敏感,所以,標準誤差能夠很好地反映出測量的精密度。這正是標準誤差在工程測量中廣泛被采用的原因。因此,標準差是用來衡量一組數自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差。
?
?
?
總結
以上是生活随笔為你收集整理的统计学基础——方差、协方差、标准差(标准偏差/均方差)、标准误、均方误差、均方根误差(标准误差)的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宇视摄像机媒体流达到上限
- 下一篇: openCV中sobel边缘增强