总体参数估计概述
統計推斷(Statistical inference)就是根據樣本的實際數據,對總體的數量特征作出具有一定可靠程度的估計和判斷。統計推斷的基本內容有參數估計和假設檢驗兩方面。概括地說,研究一個隨機變量,推斷它具有什么樣的數量特征,按什么樣的模式來變動,這屬于估計理論的內容,而推測這些隨機變量的數量特征和變動模式是否符合我們事先所作的假設,這屬于檢驗理論的內容。參數估計和假設檢驗的共同點是它們都對總體無知或不很了解,都是利用部分觀察值所提供的信息,對總體的數量特征作出估計和判斷,但兩者所要解決問題的著重點的所有方法有所不同。本節先研究總體參數估計的問題。
?
總體參數估計是以樣本統計量(即樣本數字特征)作為未知總體參數(即總體數字特征)的估計量,并通過對樣本單位的實際觀察取得樣本數據,計算樣本統計量的取值作為被估計參數的估計值。
?
不論社會經濟活動還是科學試驗,人們作出某種決策之前總是要對許多情況進行估計。例如商品推銷人員要估計新式時裝可能為消費者所喜好的程度,自選商場經理要估計附近居民的購買能力,民意調查機構要估計競選者的得票率,醫藥生產部門要推廣某種藥品的新配方,必須估計新藥療效的提高程度等等。這些估計通常是在信息不完全、結果不確定的情況下作出。參數估計為我們提供一套在滿足一定精確度要求下根據部分信息來估計總體參數的真值,并作出同這個估計相適應的誤差說明的科學方法。
?
科學的抽樣估計方法要具備三個基本條件。
?
首先是要有合適的統計量作為估計量。我們知道統計量是樣本隨機變量的函數,根據樣本隨機變量可以構造許多統計量,但不是所有的統計量都能夠充當良好的估計量。例如,從一個樣本可以計算平均數、中位數、眾數等等,現在要用來估計總體平均數,究竟以哪個樣本統計量作為估計量更合適,如果采用樣本平均數作為估計量,這就需要回答樣本平均數和總體平均數存在什么樣的內在聯系,以樣本平均數作為良好估計量的標準是什么等等。只有這些問題解決了,才能通過樣本的實際觀察確定估計值,而估計值是參數估計的基礎。
?
其次,要有合理的允許誤差范圍。允許誤差范圍又稱抽樣極限誤差,指樣本統計量與被估計總體參數離差的絕對值可允許變動的上限或下限。離差的絕對值愈小表明抽樣估計的準確度愈高,反之,就表明準確度愈差了。由于統計量本身也是隨機變量,所以要使所做的估計完全沒有誤差是難以實現的,但估計誤差也不能太大,估計誤差如果超過了一定限度參數估計本身也就會失去價值。當然也不見得誤差愈小就是愈好的估計,因為減少誤差勢必增加費用、時間,增加人力、物力、財力的負擔,這樣甚至會失去組織抽樣調查的意義。所以在做估計的時候應該根據所研究對象的變異程度和分析任務的要求確定一個合理的允許誤差范圍,凡估計值與被估計值之間的離差不超過允許范圍,這種估計都算是有效的。例如估計糧食畝產600公斤,允許誤差范圍6公斤,這意味著如果實際的糧食畝產在594—606公斤之間都應該認為估計是有效的。我們把允許誤差的區間594—606公斤稱為估計區間,允許誤差與估計值之比稱為誤差率,(1–誤差率)稱為估計精度,上例誤差率為6/600=1%,估計精度為1–1%=99%。
?
再次,要有一個可接受的置信度。估計置信度又稱估計推斷的概率保證程度,這是估計的可靠性問題。由于抽樣是隨機抽樣,統計量是隨機變量,估計值所確定的估計區間也是隨機的,在實際抽樣中并不能做主被估計的參數真值都落在允許誤差的范圍內。這就產生要冒多大風險相信所作的估計。如果一種估計可信度很低,這就意味著所冒的風險很大,這種估計也就沒有什么價值。例如我們愿意冒10%的風險,這表示如果進行多次重復估計,則平均每100次估計將10次是錯誤,90次估計正確。90%就稱為置信度或稱概率保證程度。在抽樣估計中要求達到100%的置信度是難以做到的,但置信度小了,估計結論的可靠性太低,又會影響估計本身的價值,所以在做估計的時候,也應該根據所研究問題的性質和工作的需要確定一個可接受的估計置信度。當然估計置信度的要求和準確度的要求應該結合起來考慮,估計的準確度很高而置信度很低或準確很低而置信度很高都是不合適的。
?
總結