总体参数的估计(概念)
舉例:到底北京人同意北京大力發(fā)展軌道交通,由于不大可能詢問所有的一千多萬北京市民,人們只好進行抽樣調(diào)查以得到樣本,并用樣本中同意發(fā)展軌道交通的比例來估計真實的比例,從不同的樣本得到的結(jié)論也不會完全一樣。雖然真實的比例在這種抽樣過程中永遠不可能知道,但有可能知道估計出來的比例和真實的比例大致差多,從數(shù)據(jù)得到關(guān)于總體參數(shù)的一些結(jié)論的過程就叫做統(tǒng)計推斷。
總體代表人們所關(guān)心的那部分世界。而在利用樣本中的信息來對總體參數(shù)進行推斷之前,人們往往對代表總體的變量假定了分布族。在假定了總體分布族之后,進一步對總體的認識就是要在這個分布族中選擇一個與人們所關(guān)心的問題有關(guān)的具體分布。由于分布族成員是由參數(shù)決定的,如果能夠估計出參數(shù),對總體的具體分布就知道的差不多了。
那么,哪些是分布的參數(shù)呢?正態(tài)分布族中的成員被(總體)均值和標準差完全確定,Bernoulli分布族的成員被概率(或比例)p完全決定。因此如果能對這些參數(shù)進行估計,總體分布也就估計出來了。 估計當然要根據(jù)從總體所抽取的樣本來確定。 那么樣本的(不包含未知總體參數(shù)的)函數(shù)稱為統(tǒng)計量,而用于估計的統(tǒng)計量稱為估計量。由于一個統(tǒng)計量對于不同的樣本取值不同,所以,估計量也是隨機變量,并有其分布。 當然,如果樣本已經(jīng)得到,數(shù)據(jù)已經(jīng)代入,估計量就有了一個數(shù)值,也就不是隨機的了,這個數(shù)字稱為該估計量的一個實現(xiàn)或取值,也稱為一個估計值。
?
估計,分為兩種,一種是點估計,也就是用估計量的實現(xiàn)值來近似相應的總體參數(shù)。另一種是區(qū)間估計,它是包括估計量在內(nèi)(有時是以估計量為中心)的一個區(qū)間,該區(qū)間被認為很可能包含總體參數(shù)。點估計給出一個數(shù)字,用起來方便,而區(qū)間估計給出一個區(qū)間,留有余地,不想點估計那么絕對。
?
區(qū)間估計
當你描述一個人的體重時,你不會說這個人是82.11公斤,而是說這個人是七八十公斤,或者在七十到八十公斤之間。提供的這個范圍就是某種區(qū)間估計。再例如,在調(diào)查某機構(gòu)的民意檢測中,該候選人的支持率在75%,誤差是3%,置信度是95%,這樣的說法意味著下面三點:
1、樣本中的支持率為75% ,這是用樣本比例作為對總體比例的點估計。
2、估計范圍為75%上下百分之3的誤差,那么區(qū)間為(72%,78%)。
3、如果用類似的方式,重復抽取大量(樣本量相同的)樣本時,產(chǎn)生的大量類似區(qū)間中有些會覆蓋真正的P,而有些不會,但這些區(qū)間中大約有95%會覆蓋真正的總體比例。
這樣得到的區(qū)間被稱為總體比例p的置信度為95%的置信區(qū)間(confidence interval)。這里的置信度又稱置信水平或置信系數(shù)。
?
兩個正態(tài)總體均值之差的區(qū)間估計:
例如:我國兩個地區(qū)的一些城市2003年的城鎮(zhèn)家庭人均消費性支出數(shù)據(jù)。這里,假定這種支出服從正態(tài)分布。在數(shù)據(jù)中(無論哪種形式)收入是一列,變量名為expend,而區(qū)域為另一列,變量名為area。
希望分別得到這兩個總體均值和標準差的點估計(即樣本均值和樣本標準差)和個子總體均值的95%置信區(qū)間,利用R語句:
w = read.table("expend.txt",header = T) #讀入數(shù)據(jù)。
x = w[w[,2] == 1,1]; y=w[w[,2] == 2,1] #分開兩個區(qū)域
mean(x);sd(x);mean(y);sd(y)#得到個子的均值和標準差:
作為兩個總體均值估計量的樣本均值分別為4562.53和5413.72,而樣本標準差分別為599.831和785.121
?
總結(jié)
以上是生活随笔為你收集整理的总体参数的估计(概念)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx、apach、php、mysq
- 下一篇: sublime text 3 快捷键大全