python 概率分布类型检验_统计学:假设检验Python案例实现+概率论基础知识回顾...
先通過一個案例說明單樣本檢驗的過程:
案例分析:
公司制造出10臺引擎供測試使用,每一臺的排放水平如下:
15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
請判斷公司生產的引擎是否符合政府規定呢?
根據政府發布的新排放要求,引擎排放平均值要低于20ppm,(ppm是英文百萬分之一的縮寫,這里我們只要理解為是按照環保要求汽車尾氣中碳氫化合物要低于20ppm)。
#描述統計分析
import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])
sample_mean=df.mean()
sample_std=df.std()
print('樣本平均值=','%.2f'%sample_mean,'單位:ppm')
print('樣本標準差:','%.2f'%sample_std,'單位:ppm')
'''1、確定問題是什么?要研究的問題是:這些樣本數據是否滿足新標準?零假設H0:公司引擎排放不滿足標準,也就是平均值u>=20備擇假設Ha:公司引擎排放滿足標準,平均值u<20因為只有一個樣本,選擇單樣本檢驗'''
#推論統計分析(包括假設檢驗,置信區間,效應量)
sns.distplot(df)
plt.title('數據集分布')
plt.show()
'''檢驗方向的確定:因為備選假設是公司引擎排放滿足標準即u<20,所以使用單尾檢驗中的左尾檢驗.計算p值:1)計算標準誤差2)計算t值((t=樣本平均值-總體平均值)/標準誤差)3)根據t值,查找t表格,得到概率p值'''
#手動計算
n=10
SE=sample_std/(np.sqrt(n))#計算標準誤差
pop_mean=20
t=(sample_mean-pop_mean)/SE#計算t值
print('標準誤差SE=',SE)
print('t=',t)
#描述統計分析
import seaborn as sns
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
?
df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])
sample_mean=df.mean()
?
sample_std=df.std()
print('樣本平均值=','%.2f'%sample_mean,'單位:ppm')
print('樣本標準差:','%.2f'%sample_std,'單位:ppm')
?
'''1、確定問題是什么?要研究的問題是:這些樣本數據是否滿足新標準?零假設H0:公司引擎排放不滿足標準,也就是平均值u>=20備擇假設Ha:公司引擎排放滿足標準,平均值u<20因為只有一個樣本,選擇單樣本檢驗'''
#推論統計分析(包括假設檢驗,置信區間,效應量)
sns.distplot(df)
plt.title('數據集分布')
plt.show()
?
'''檢驗方向的確定:因為備選假設是公司引擎排放滿足標準即u<20,所以使用單尾檢驗中的左尾檢驗.計算p值:1)計算標準誤差2)計算t值((t=樣本平均值-總體平均值)/標準誤差)3)根據t值,查找t表格,得到概率p值'''
#手動計算
n=10
SE=sample_std/(np.sqrt(n))#計算標準誤差
pop_mean=20
t=(sample_mean-pop_mean)/SE#計算t值
print('標準誤差SE=',SE)
print('t=',t)
?
結果:
樣本平均值= 17.17 單位:ppm
樣本標準差: 2.98 單位:ppm
標準誤差SE= 0.94281493412
t= -3.00164952589
'''用Python統計包scipy計算用scipy計算出的是:雙尾檢驗單(1samp)樣本t檢驗(ttest1samp):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest1samp.html相關(related)樣本t檢驗(ttestrel):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestrel.html雙獨立(independent)樣本t檢驗(ttestind):https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestind.html'''
from scipy import stats
pop_mean=20
t,p_twotail=stats.ttest_1samp(df,pop_mean)
print('t值=',t,'雙尾檢驗的p值=',p_twotail)
#單尾檢驗的p值
p_onetail=p_twotail/2
print('單尾檢驗的p值',p_onetail)
#判斷標準(顯著性水平)使用alpha=5%
alpha=0.05
if(t<0 and p_onetail
print('拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準')
else:
print('接受零假設,沒有統計顯著,也就是汽車引擎排放不滿足標準')
#拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準
#置信區間
'''1)置信水平對應的t值(t_ci)2)計算上下限置信區間上限a=樣本平均值-t_ci*標準誤差置信區間下限b=樣本平均值-t_ci*標準誤差'''
t_ci=2.262
SE=stats.sem(df)
a=sample_mean-t_ci*SE
b=sample_mean+t_ci*SE
print('單個平均值的置信區間,95置信水平CI=(%f,%f)'%(a,b))
'''效應量效應量:是指處理效應的大小。例如藥物A比藥物B效果顯著。度量效應量有很多種,但大多數都屬于兩大主要類別。1)第一種叫差異度量例如在對比平均值時,衡量效應大小的常見標準之一是Cohen's dCohen's d=(樣本平均值1—樣本平均值2)/標準差Cohen's d 除以的是標準差,也就是以標準差為單位,樣本平均值和總體平均值之間相差多少。2)第二種叫相關度度量例如R平方,表示某個變量的變化比例與另一變量的關系。可以用t檢驗的信息退出R平方的公式,這里的t值從t檢驗中獲得的值,df是自由度。r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平如果r平方等于20%,表示我們可以說通過知道另一個變量能夠接受相關變量20%的變化情況'''
#效應量:差異指標Cohen's d
d=(sample_mean-pop_mean)/sample_std
#效應量:相關度指標R2
n=10
df=n-1
R2=(t*t)/(t*t+df)
print('d=',d)
print('R2=',R2)
結果:
t值= -3.00164952589 雙尾檢驗的p值= 0.0149164142489
單尾檢驗的p值 0.00745820712445
拒絕零假設,有統計顯著,也就是汽車引擎排放滿足標準
單個平均值的置信區間,95置信水平CI=(15.037353,19.302647)
d= -0.9492049239364257
R2= 0.500274845399
數據分析簡報:
結論:公司引擎排放滿足標準
1、描述統計分析
樣本平均值17.17ppm,樣本標準差2.98ppm
2、推論統計分析
1)假設檢驗
獨立樣本t(9)=-3.00,
p=.0074(α=5%),單尾檢驗(左尾)
公司引擎排放滿足標準
2)置信區間
平均值的置信區間,95% CI=(17.11,17.23)
3)效應量
d=-0.94
第一章、常見概率分布
隨機變量:離散隨機變量、連續隨機變量
離散隨機變量:概率質量函數PMF、離散概率分布
連續隨機變量:概率密度函數PDF、連續概率分布
離散概率分布的四大典型:伯努利分布、二項分布、幾何分布、泊松分布
1、伯努利分布即是隨機變量X僅有兩種可能的情況(1,成功;0,失敗),分別對應成功概率p,失敗概率1-p。
2、二項分布即做n次相互獨立事件,每次事件存在兩種情況(成功或失敗),每次成功概率都相等用p表示,求成功k次的概率是多少。p(k)=Cnkpk(1-p)n-k。期望E=np,方差np(1-p)。
3、幾何分布即做n次相互獨立事件,每次事件存在兩種情況(成功或失敗),每次成功概率都相等用p表示,求第k次做某事才第一次成功的概率。p(k)=(1-p)k-1p。期望E=1/p。方差等于1-p/p2。
4、泊松分布即某一獨立事件,在任意相同的時間范圍內,事件發生的概率相同,求某個時間范圍內發生某件次數k次的概率是多大。p(k)=uke-u/k!。期望E=u。方差等于u。
連續概率分布的兩大典型:正態分布、冪律分布
1、 正態分布
求某一取值范圍的概率。
第一步:確定概率范圍p(k<1.05)
第二步:求標準分z=k-平均值/標準差
第三步:查找z表格,得出p(Z
第二章、抽樣分布和中心極限定理
總體、樣本、樣本大小、樣本數量
中心極限定理:
1)樣本平均值約等于總體平均值。
2)不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態分布。
應用:
1、用樣本來估計總體(民意調查)
2、根據總體信息,判斷某個樣本是否屬于總體(3個標準差,概率97%)
解釋:對于屬于正態分布的指標數據,我們可以很快捷地對它進行下一步假設檢驗,并推算出對應的置信區間;而對于那些不屬于正態分布的數據,根據中心極限定理,在樣本容量很大時,總體參數的抽樣分布是趨向于正態分布的,最終都可以依據正態分布的檢驗公式對它進行下一步分析。
總體標準差:某個數據集的標準差。
樣本標準差:用樣本估計總體標準差s。
樣本標準誤差(標準誤):所有樣本平均值產生的標準差。
抽樣分布:將樣本平均值的分布可視化叫做抽樣分布。
標準誤SE。根據總體信息,判斷某個樣本是否屬于總體(抽樣分布中3個標準誤,概率97%)。
第三章、置信水平和置信區間
置信區間(誤差范圍):[a,b]
置信水平Y%:區間包含總體平均值的概率p(a
大樣本如何計算置信區間(n>=30,抽樣分布呈正態分布):
1、確定要求解的問題。
2、求樣本的平均值和標準誤差。
3、確定置信水平
4、求出置信區間上下限的值。
a=總體平均值-幾個標準誤差=總體平均值-z*標準誤差
b=總體平均值+幾個標準誤差=總體平均值+z*標準誤差
【p(Z
已知樣本平均值的求解過程:1、p(Z
小樣本如何計算置信區間(n<30,抽樣分布呈t分布):
t分布的自由度df=n-1。
已知樣本平均值的求解過程:1、確定要求的問題是什么2、求樣本的平均值和標準誤差3、查找t表格,求t值。4、a=樣本平均值-t*標準誤差,b=樣本平均值+t*標準誤差。
第四章、假設性檢驗
假設檢驗套路:問題是什么?證據是什么?判斷標準是什么?作出結論
假設檢驗常規過程:1、零假設,備選假設2、零假設成立時,得到樣本平均值的概率:p值3、顯著水平a(0.1%、1%、5%)4、p<=a時,拒絕零假設也就是備選假設成立,p>a時,接受零假設。
(一)單樣本檢驗
問題是什么:
1、零假設:公司引擎排放不滿足標準,也就是平均值>=20
備選假設:滿足標準,也就是平均值<20
2、判斷假設檢驗類型:單樣本檢驗
3、判斷抽樣分布類型:樣本大小>=30(正態分布)、樣本大小<30(t分布,總體近似正態分布)、其它分布。
4、判斷檢驗方向:單尾檢驗,還是雙尾檢驗。
證據是什么:
p值:在零假設成立條件下,得到樣本平均值的概率。
P值計算步驟:計算標準誤差、樣本平均值、總體均值、t=樣本平均值-總體均值/標準誤差、根據t值查找表格得到p值。
判斷標準是什么:
顯著水平a=0.05。p<=0.05時,拒絕零假設,備選假設成立,p>0.05時,接受零假設。
假設檢驗APA格式:單樣本t(9)=-3.00,p=.0074(a=5%,單尾檢驗(左尾)。
置信區間:
a=樣本平均值-t_ci*標準誤差
b=樣本平均值+t_ci*標準誤差
置信區間APA格式:單個平均值的置信區間,95% CI=(17.11,17.23)。
效應量:
差異指標:Cohen’s d=第一組平均值-第二組平均值/標準差
相關度指標:R2=t2/t2+df
效應量APA報告格式:d=-0.95。
(二)相關配對檢驗
與單樣本檢驗的不同點:
問題是什么:
1、零假設:特魯普效應不存在,第一組平均值等于第二組平均值或者說第一組平均值-第二組平均值=0。備選假設:特魯普效應存在,第一組平均值
2、判斷抽樣分布:判斷出差值數據集(即第一組平均值-第二組平均值)的分布情況。
3、t檢驗:對差值數據集進行t檢驗。
置信區間:
對差值數據集進行平均值置信區間求取。
置信區間APA 格式:兩個平均值差值的置信區間,95%置信水平CI=[-8.80,-8.67]
效應量:
相關配對檢驗效應量Cohen's d=(樣本平均值-總體平均值)/樣本標準差
(三)、雙獨立樣本檢驗
問題:
1、零假設:A版本和B版本沒有差別,A版本平均值等于B版本。備選假設:A版本和B版本有差別,二者平均值不相等。
2、判斷抽樣分布類型:兩個數據集都要進行分布作圖判斷。案例中同為t分布。
3、案例中檢驗方向是雙尾檢驗。判斷標準:p<=a/2=0.025時,拒接零假設。
置信區間:
a=樣本平均值-t_ci*標準誤差
b=樣本平均值+t_ci*標準誤差
這里的樣本平均值=樣本平均值1-樣本平均值2
標準誤差:SE=兩個樣本綜合標準誤差。
置信區間APA格式:兩個平均值差異的置信區間,95置信水平CI=[-2.762316,-2.677684]
效應量:
Cohen's d=(第一組平均值-第二組平均值)/標準差。標準差為合并標準差。
總結
以上是生活随笔為你收集整理的python 概率分布类型检验_统计学:假设检验Python案例实现+概率论基础知识回顾...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python百度翻译爬虫_Python爬
- 下一篇: zenmap nmap输出无显示_双路显