當前位置：首頁 > 编程语言 > python >内容正文

python

python 概率分布类型检验_统计学：假设检验Python案例实现+概率论基础知识回顾...

發布時間：2025/3/12 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 概率分布类型检验_统计学：假设检验Python案例实现+概率论基础知识回顾... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

先通過一個案例說明單樣本檢驗的過程：

案例分析：

公司制造出10臺引擎供測試使用，每一臺的排放水平如下：

15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

請判斷公司生產的引擎是否符合政府規定呢？

根據政府發布的新排放要求，引擎排放平均值要低于20ppm，(ppm是英文百萬分之一的縮寫，這里我們只要理解為是按照環保要求汽車尾氣中碳氫化合物要低于20ppm)。

#描述統計分析

import seaborn as sns

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])

sample_mean=df.mean()

sample_std=df.std()

print('樣本平均值=','%.2f'%sample_mean,'單位：ppm')

print('樣本標準差：','%.2f'%sample_std,'單位：ppm')

'''1、確定問題是什么？要研究的問題是：這些樣本數據是否滿足新標準？零假設H0：公司引擎排放不滿足標準，也就是平均值u>=20備擇假設Ha:公司引擎排放滿足標準，平均值u<20因為只有一個樣本，選擇單樣本檢驗'''

#推論統計分析(包括假設檢驗，置信區間，效應量)

sns.distplot(df)

plt.title('數據集分布')

plt.show()

'''檢驗方向的確定：因為備選假設是公司引擎排放滿足標準即u<20，所以使用單尾檢驗中的左尾檢驗.計算p值：1)計算標準誤差2)計算t值((t=樣本平均值-總體平均值)/標準誤差)3)根據t值，查找t表格，得到概率p值'''

#手動計算

n=10

SE=sample_std/(np.sqrt(n))#計算標準誤差

pop_mean=20

t=(sample_mean-pop_mean)/SE#計算t值

print('標準誤差SE=',SE)

print('t=',t)

#描述統計分析

import seaborn as sns

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

df=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])

sample_mean=df.mean()

sample_std=df.std()

print('樣本平均值=','%.2f'%sample_mean,'單位：ppm')

print('樣本標準差：','%.2f'%sample_std,'單位：ppm')

#推論統計分析(包括假設檢驗，置信區間，效應量)

sns.distplot(df)

plt.title('數據集分布')

plt.show()

#手動計算

n=10

SE=sample_std/(np.sqrt(n))#計算標準誤差

pop_mean=20

t=(sample_mean-pop_mean)/SE#計算t值

print('標準誤差SE=',SE)

print('t=',t)

結果:

樣本平均值= 17.17 單位：ppm

樣本標準差： 2.98 單位：ppm

標準誤差SE= 0.94281493412

t= -3.00164952589

'''用Python統計包scipy計算用scipy計算出的是：雙尾檢驗單(1samp)樣本t檢驗(ttest1samp)：https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest1samp.html相關(related)樣本t檢驗(ttestrel)：https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestrel.html雙獨立(independent)樣本t檢驗(ttestind)：https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestind.html'''

from scipy import stats

pop_mean=20

t,p_twotail=stats.ttest_1samp(df,pop_mean)

print('t值=',t,'雙尾檢驗的p值=',p_twotail)

#單尾檢驗的p值

p_onetail=p_twotail/2

print('單尾檢驗的p值',p_onetail)

#判斷標準(顯著性水平)使用alpha=5%

alpha=0.05

if(t<0 and p_onetail

print('拒絕零假設，有統計顯著，也就是汽車引擎排放滿足標準')

else:

print('接受零假設，沒有統計顯著，也就是汽車引擎排放不滿足標準')

#拒絕零假設，有統計顯著，也就是汽車引擎排放滿足標準

#置信區間

'''1)置信水平對應的t值(t_ci)2)計算上下限置信區間上限a=樣本平均值-t_ci*標準誤差置信區間下限b=樣本平均值-t_ci*標準誤差'''

t_ci=2.262

SE=stats.sem(df)

a=sample_mean-t_ci*SE

b=sample_mean+t_ci*SE

print('單個平均值的置信區間，95置信水平CI=(%f,%f)'%(a,b))

'''效應量效應量：是指處理效應的大小。例如藥物A比藥物B效果顯著。度量效應量有很多種，但大多數都屬于兩大主要類別。1)第一種叫差異度量例如在對比平均值時，衡量效應大小的常見標準之一是Cohen's dCohen's d=(樣本平均值1—樣本平均值2)/標準差Cohen's d 除以的是標準差，也就是以標準差為單位，樣本平均值和總體平均值之間相差多少。2)第二種叫相關度度量例如R平方，表示某個變量的變化比例與另一變量的關系。可以用t檢驗的信息退出R平方的公式，這里的t值從t檢驗中獲得的值，df是自由度。r2=t2 / (t2+df),其中r2是指r的平方，t2是t的平如果r平方等于20%，表示我們可以說通過知道另一個變量能夠接受相關變量20%的變化情況'''

#效應量：差異指標Cohen's d

d=(sample_mean-pop_mean)/sample_std

#效應量：相關度指標R2

n=10

df=n-1

R2=(t*t)/(t*t+df)

print('d=',d)

print('R2=',R2)

結果：

t值= -3.00164952589 雙尾檢驗的p值= 0.0149164142489

單尾檢驗的p值 0.00745820712445

拒絕零假設，有統計顯著，也就是汽車引擎排放滿足標準

單個平均值的置信區間，95置信水平CI=(15.037353,19.302647)

d= -0.9492049239364257

R2= 0.500274845399

數據分析簡報：

結論：公司引擎排放滿足標準

1、描述統計分析

樣本平均值17.17ppm，樣本標準差2.98ppm

2、推論統計分析

1)假設檢驗

獨立樣本t(9)=-3.00,

p=.0074(α=5%)，單尾檢驗(左尾)

公司引擎排放滿足標準

2)置信區間

平均值的置信區間，95% CI=(17.11,17.23)

3)效應量

d=-0.94

第一章、常見概率分布

隨機變量：離散隨機變量、連續隨機變量

離散隨機變量：概率質量函數PMF、離散概率分布

連續隨機變量：概率密度函數PDF、連續概率分布

離散概率分布的四大典型：伯努利分布、二項分布、幾何分布、泊松分布

1、伯努利分布即是隨機變量X僅有兩種可能的情況(1，成功；0，失敗)，分別對應成功概率p，失敗概率1-p。

2、二項分布即做n次相互獨立事件，每次事件存在兩種情況(成功或失敗)，每次成功概率都相等用p表示，求成功k次的概率是多少。p(k)=Cnkpk(1-p)n-k。期望E=np，方差np(1-p)。

3、幾何分布即做n次相互獨立事件，每次事件存在兩種情況(成功或失敗)，每次成功概率都相等用p表示，求第k次做某事才第一次成功的概率。p(k)=(1-p)k-1p。期望E=1/p。方差等于1-p/p2。

4、泊松分布即某一獨立事件，在任意相同的時間范圍內，事件發生的概率相同，求某個時間范圍內發生某件次數k次的概率是多大。p(k)=uke-u/k!。期望E=u。方差等于u。

連續概率分布的兩大典型：正態分布、冪律分布

1、正態分布

求某一取值范圍的概率。

第一步：確定概率范圍p(k<1.05)

第二步：求標準分z=k-平均值/標準差

第三步：查找z表格，得出p(Z

第二章、抽樣分布和中心極限定理

總體、樣本、樣本大小、樣本數量

中心極限定理：

1)樣本平均值約等于總體平均值。

2)不管總體是什么分布，任意一個總體的樣本平均值都會圍繞在總體的平均值周圍，并且呈正態分布。

應用：

1、用樣本來估計總體(民意調查)

2、根據總體信息，判斷某個樣本是否屬于總體(3個標準差，概率97%)

解釋：對于屬于正態分布的指標數據，我們可以很快捷地對它進行下一步假設檢驗，并推算出對應的置信區間；而對于那些不屬于正態分布的數據，根據中心極限定理，在樣本容量很大時，總體參數的抽樣分布是趨向于正態分布的，最終都可以依據正態分布的檢驗公式對它進行下一步分析。

總體標準差：某個數據集的標準差。

樣本標準差：用樣本估計總體標準差s。

樣本標準誤差(標準誤)：所有樣本平均值產生的標準差。

抽樣分布：將樣本平均值的分布可視化叫做抽樣分布。

標準誤SE。根據總體信息，判斷某個樣本是否屬于總體(抽樣分布中3個標準誤，概率97%)。

第三章、置信水平和置信區間

置信區間(誤差范圍)：[a,b]

置信水平Y%：區間包含總體平均值的概率p(a

大樣本如何計算置信區間(n>=30，抽樣分布呈正態分布)：

1、確定要求解的問題。

2、求樣本的平均值和標準誤差。

3、確定置信水平

4、求出置信區間上下限的值。

a=總體平均值-幾個標準誤差=總體平均值-z*標準誤差

b=總體平均值+幾個標準誤差=總體平均值+z*標準誤差

【p(Z

已知樣本平均值的求解過程：1、p(Z

小樣本如何計算置信區間(n<30，抽樣分布呈t分布)：

t分布的自由度df=n-1。

已知樣本平均值的求解過程：1、確定要求的問題是什么2、求樣本的平均值和標準誤差3、查找t表格，求t值。4、a=樣本平均值-t*標準誤差，b=樣本平均值+t*標準誤差。

第四章、假設性檢驗

假設檢驗套路：問題是什么？證據是什么？判斷標準是什么？作出結論

假設檢驗常規過程：1、零假設，備選假設2、零假設成立時，得到樣本平均值的概率：p值3、顯著水平a(0.1%、1%、5%)4、p<=a時，拒絕零假設也就是備選假設成立，p>a時，接受零假設。

(一)單樣本檢驗

問題是什么：

1、零假設：公司引擎排放不滿足標準，也就是平均值>=20

備選假設：滿足標準，也就是平均值<20

2、判斷假設檢驗類型：單樣本檢驗

3、判斷抽樣分布類型：樣本大小>=30(正態分布)、樣本大小<30(t分布，總體近似正態分布)、其它分布。

4、判斷檢驗方向：單尾檢驗,還是雙尾檢驗。

證據是什么：

p值：在零假設成立條件下，得到樣本平均值的概率。

P值計算步驟：計算標準誤差、樣本平均值、總體均值、t=樣本平均值-總體均值/標準誤差、根據t值查找表格得到p值。

判斷標準是什么:

顯著水平a=0.05。p<=0.05時，拒絕零假設，備選假設成立，p>0.05時，接受零假設。

假設檢驗APA格式：單樣本t(9)=-3.00,p=.0074(a=5%,單尾檢驗(左尾)。

置信區間：

a=樣本平均值-t_ci*標準誤差

b=樣本平均值+t_ci*標準誤差

置信區間APA格式：單個平均值的置信區間，95% CI=(17.11，17.23)。

效應量：

差異指標：Cohen’s d=第一組平均值-第二組平均值/標準差

相關度指標：R2=t2/t2+df

效應量APA報告格式：d=-0.95。

(二)相關配對檢驗

與單樣本檢驗的不同點：

問題是什么：

1、零假設：特魯普效應不存在，第一組平均值等于第二組平均值或者說第一組平均值-第二組平均值=0。備選假設：特魯普效應存在，第一組平均值

2、判斷抽樣分布：判斷出差值數據集(即第一組平均值-第二組平均值)的分布情況。

3、t檢驗：對差值數據集進行t檢驗。

置信區間：

對差值數據集進行平均值置信區間求取。

置信區間APA 格式：兩個平均值差值的置信區間，95%置信水平CI=[-8.80,-8.67]

效應量：

相關配對檢驗效應量Cohen's d=(樣本平均值-總體平均值)/樣本標準差

(三)、雙獨立樣本檢驗

問題：

1、零假設：A版本和B版本沒有差別，A版本平均值等于B版本。備選假設：A版本和B版本有差別，二者平均值不相等。

2、判斷抽樣分布類型：兩個數據集都要進行分布作圖判斷。案例中同為t分布。

3、案例中檢驗方向是雙尾檢驗。判斷標準：p<=a/2=0.025時，拒接零假設。

置信區間：

a=樣本平均值-t_ci*標準誤差

b=樣本平均值+t_ci*標準誤差

這里的樣本平均值=樣本平均值1-樣本平均值2

標準誤差:SE=兩個樣本綜合標準誤差。

置信區間APA格式：兩個平均值差異的置信區間，95置信水平CI=[-2.762316,-2.677684]

效應量：

Cohen's d=(第一組平均值-第二組平均值)/標準差。標準差為合并標準差。

總結

以上是生活随笔為你收集整理的python 概率分布类型检验_统计学：假设检验Python案例实现+概率论基础知识回顾...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python百度翻译爬虫_Python爬
下一篇： zenmap nmap输出无显示_双路显

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python 概率分布类型检验_统计学：假设检验Python案例实现+概率论基础知识回顾...

總結