推论统计学基础一:Estimation
置信區間
先來介紹一下置信區間的預備知識:
對于正態分布而言,有3σ原則,也就是數值分布在(μ-σ,μ+σ)中的概率為0.6827;數值分布在(μ-2σ,μ+2σ)中的概率為0.9544;數值分布在(μ-3σ,μ+3σ)中的概率為0.9974。
其中μ為樣本均值,σ為樣本標準差。
而2σ時概率分布已經達到95%以上的水平,事件不發生的概率只有5%,可以說是極有可能發生了。所以在討論某個情況的置信區間時通常我們都用95%。
下面具體介紹一下置信區間:
置信區間從字面上可以理解為,某一事件發生在某一個概率區間內可能的概率。這個概率被稱為置信水平。舉例來說,如果在一次大選中某人的支持率為55%,而置信水平0.95以上的置信區間是(50%,60%),那么他的真實支持率有百分之九十五的機率落在百分之五十和百分之六十之間,因此他的真實支持率不足一半的可能性小于百分之5。
如例子中一樣,置信水平一般用百分比表示,因此置信水平0.95上的置信空間也可以表達為:95%置信區間。置信區間的兩端被稱為置信極限。對一個給定情形的估計來說,置信水平越高,所對應的置信區間就會越大。
我們由于有公式
SE=σn√
se是樣本標準差, σ是總體標準差
所以95%的置信區間公式為:
xˉ?2σn√<μB<xˉ+2σn√
其中 μB為要估計的數, xˉ為樣本均值
點估計
點估計(point estimation)是用樣本統計量來估計總體參數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。
由樣本數據估計總體分布所含未知參數的真值,所得到的值,稱為估計值。點估計的精確程度用置信區間表示。
區間估計
區間估計顧名思義就是某事件發生在某概率區間之內可能的概率情況。比如估計一種藥品所含雜質的比率在1~2%之間;估計一種合金的斷裂強度在1000~1200千克之間,等等。
區間估計(interval estimation)是從點估計值和抽樣標準誤出發,按給定的概率值建立包含待估計參數的區間。其中這個給定的概率值稱為置信度或置信水平(confidence level),這個建立起
來的包含待估計參數的區間稱為置信區間(confidence interval),指總體參數值落在樣本統計值某一區內的概率;
劃定置信區間的兩個數值分別稱為置信下限(lower confidence limit,lcl)和置信上限(upper confidence limit,ucl)
樣本量越大,置信區間的范圍就會越小,因為樣本量越大,標準誤差就會越小,這樣對于總成參數的估計就會越精確。
下面是區間估計的計算公式:
(xˉ?z?σn√,xˉ+z?σn√)
其中z為置信度,比如說95%所對應的標準正態分布的z是1.96,98%所對應的標準正態分布的z是2.33,99%所對應的標準正態分布的z是2.576
xˉ是樣本均值
區間估計的計算公式為什么會是這樣呢?
對于區間估計,因為根據中心極限定理,抽樣分布的平均值是會符合正態分布的,因此我們可以根據正態分布來求95%的置信區間。因為標準誤差的定義就是抽樣分布的“平均值的標準差”,因此使用中心值±1.96*標準誤差就可以求出平均值的置信區間。
假設檢驗
判斷某件事是否有效果,我們稱之為假設檢驗
距離xˉ兩側的距離稱之為誤差界限(margin of error)
其值等于
也就是一半的置信寬度
感覺自己這一次記得筆記要比上次好不少。最后附上我的優達學城優惠碼:C7B2877A
總結
以上是生活随笔為你收集整理的推论统计学基础一:Estimation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 描述统计学基础
- 下一篇: CSV文件读取和处理