第八九章 正态分布与超越正态
正態分布
對于正態分布,首先補充其理論知識,然后我們根據<深入淺出統計學>中的計算步驟,進行編程實現.
正態分布(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。
正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。
定理
由于一般的正態總體其圖像不一定關于y軸對稱,對于任一正態總體,其取值小于x的概率。只要會用它求正態總體在某個特定區間的概率即可。
為了便于描述和應用,常將正態變量作數據轉換。將一般正態分布轉化成標準正態分布。
若
服從標準正態分布,通過查標準正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱為標準化變換。(標準正態分布表:標準正態分布表中列出了標準正態曲線下從-∞到X(當前值)范圍內的面積比例。)
標準正態分布
當 時,正態分布就成為標準正態分布
分布曲線的圖形特征
集中性:正態曲線的高峰位于正中央,即均數所在的位置。
對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
曲線與橫軸間的面積總等于1,相當于概率密度函數的函數從正無窮到負無窮積分的概率為1。即頻率的總和為100%。
關于μ對稱,并在μ處取最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點,形狀呈現中間高兩邊低,正態分布的概率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
正態概率計算三步走
如果正態分布適用于遇到的情況,則看看是否能求出均值和標準差.只要先得知這些信息,才能求出概率;還需要弄清楚要求的是哪一部分面積
使數據標準化,從而得到一個標準正態曲線.下面我會給出相應的代碼.
在原書中所寫的是在概率表中直接查找相應的概率,但是在這里我們只需要編程求得即可,不再需要這么麻煩的操作.
例題與代碼
能不能找到心上人-朱莉的相親問題
問: 朱莉有一個問題,她希望理想中的伴侶能夠比她高,最好能夠比穿上五英寸高跟鞋的她還要高,這樣她就可以自在的穿高跟鞋了。我們查找數據,統計邦的男生身高服從于N(71,20.25),而朱莉身高64英寸,那么在穿和不穿高跟鞋的兩種情況下,朱莉的約會者比她高的概率是多少呢?
答: 此處我們使用scipy.stats中的norm類解決該問題,在默認情況下norm為X~N(0,1)的標準正態分布,如果有需要的話,比如我們想要直接計算X~N(3,4^2)的正態分布,我們也可以使用norm_34=norm(3,4)類似的語法來創建我們需要的norm類,要注意的是前面的3 為 期望μ,而方差σ = 4 。
from scipy.stats import norm # 對于不服從標準正態分布的函數我們需要先進行標準化,也就是Z = (X - μ) / σ # math.sqrt(20.25) = 4.5 print("約會者比朱莉高的概率為:{0:.3f}".format(1 - norm.cdf((64-71)/4.5))) print("約會者比穿五英寸高根鞋的朱莉高的概率為:{0:.3f}".format(1 - norm.cdf((69-71)/4.5))) 約會者比朱莉高的概率為:0.940 約會者比穿五英寸高根鞋的朱莉高的概率為:0.672看來我們的朱莉能夠很快找到符合擇偶標準的心上人的,既然如此,我們還是回到語法上來,更加深入的學習一下語法問題吧.更多語法問題請參考scipy的norm 模塊,不過鑒于我們不需要知道這么多,所以列出常用函數如下:
# 計算負無窮到x的概率 print(norm.cdf(-0.15)) # 計算負無窮到點的概率 print(norm.cdf([-0.15,0.5])) print(norm.cdf([-0.15,0.15])) # 概率密度函數 print(norm.pdf(0.15)) 0.4403823076297575 [0.44038231 0.69146246] [0.44038231 0.55961769] 0.39447933090788895愛情就像過山車-不止一個事件
最近婚禮籌辦市場辦的紅火,德克推出了”愛情過山車”項目,可是過山車載重超過380磅就會有危險.我們的新郎和新娘還能順利的坐上過山車嗎?
對于之前朱莉的相親問題,她的相親對象只有一個,因此我們只要計算一個獨立事件的正態分布就可以了.但是現在我們要計算的是新郎和新娘兩個人體重的正態分布,來確保他們的綜合體重不超過380磅,這個時候又要這么辦呢?
對于計算兩個事件的綜合概率,我們首先要搞清楚的是這兩個事件是否獨立,然后要計算的概率分布類型.首先對于新郎和新娘的體重這兩個事件而言,應該屬于兩個獨立事件.我們需要按照兩個獨立變量去求解.而綜合體重也屬于連續數據,而且也是符合正態分布的.那么我們要求解的就是兩個獨立變量的綜合正態分布.對于兩個獨立事件的正態分布,其期望與方差的計算方式與之前四五章的離散概率的計算是一樣的
E(X+Y) = E(X)+E(Y) E(X-Y) = E(X)-E(Y) Var(X+Y) = Var(X)+Var(Y) Var(X-Y) = Var(X)+Var(Y)現在已知新郎的體重:Y~N(190,500),新娘體重:X~N(150,400),那么兩者綜合體重小于380的概率為:
根據上面的雙獨立變量的期望與方差計算,已知新郎和新娘兩人體重的正態分布,那么可以得到,兩人綜合體重的正態分布為 (X+Y)~N(340,900),由代碼計算得到:
import math print("第一種計算方式先化為標準分,然后計算",norm.cdf((380-340)/math.sqrt(900))) print("第二種計算方式:直接聲明一個(X+Y)~N(340,900)的norm類") norm_340_30 = norm(340,30) print(norm_340_30.cdf(380)) 第一種計算方式先化為標準分,然后計算 0.9087887802741321 第二種計算方式:直接聲明一個(X+Y)~N(340,900)的norm類 0.9087887802741321替代計算
泊松分布與正態分布
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。
事實上,泊松分布正是由二項分布推導而來的,具體推導過程可參見百度百科-泊松分布詞條相關部分。其對應關系如下:
二項分布與正態分布
僅僅從數學角度上來講,當np,nq雙雙大于 5 時,二項分布也可以通過近似正態分布來計算。但是因為兩者一個為連續性分布,一個為離散型分布,所以必須要進行連續性修正。
劃分方式十分簡單,當需要計算二項分布的整數時,只需要計算該整數上下0.5的連續變量即可。換句話也就數說,正態分布中[n-0.5,n+0.5]這一連續區間的概率即為 二項分布中 n這一整數所對應的概率。
踏破鐵鞋無覓處-只因沒有計算機?
對于編程計算的我們而言,使用正態分布近似來簡化二項分布的計算其實已經是一種得不償失的方法。對于計算機而言,即使很大的正態分布也可以在一秒鐘之內算完。不過這并不代表著我們就不需要了解正態分布近似二項分布這一數學性質了。所以即使是已經有計算機,不再需要簡化運算,而更求精度與編寫效率的我們,基本數學知識也是必不可少的。
參考
[1] 百度百科-正態分布
[2] scipy的norm 模塊
[3] 《深入淺出統計學》
總結
以上是生活随笔為你收集整理的第八九章 正态分布与超越正态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入浅出统计学 第六章 排列与组合
- 下一篇: pyhanlp 分词与词性标注