先验概率、似然函数与后验概率
先驗概率
Prior probability
在貝葉斯統計中,先驗概率分布,即關于某個變量 p 的概率分布,是在獲得某些信息或者依據前,對 p 的不確定性進行猜測。例如, p 可以是搶火車票開始時,搶到某一車次的概率。這是對不確定性(而不是隨機性)賦予一個量化的數值的表征,這個量化數值可以是一個參數,或者是一個潛在的變量。
先驗概率僅僅依賴于主觀上的經驗估計,也就是事先根據已有的知識的推斷,
在應用貝葉斯理論時,通常將先驗概率乘以似然函數(likelihoodfunction)再歸一化后,得到后驗概率分布,后驗概率分布即在已知給定的數據后,對不確定性的條件分布。
似然函數
似然函數(likelihood function),也稱作似然,是一個關于統計模型參數的函數。也就是這個函數中自變量是統計模型的參數。對于結果 x ,在參數集合 θ 上的似然,就是在給定這些參數值的基礎上,觀察到的結果的概率 L(θ|x)=P(x|θ) 。也就是說,似然是關于參數的函數,在參數給定的條件下,對于觀察到的 x 的值的條件分布。
似然函數在統計推測中發揮重要的作用,因為它是關于統計參數的函數,所以可以用來評估一組統計的參數,也就是說在一組統計方案的參數中,可以用似然函數做篩選。在非正式的語境下,“似然”會和“概率”混著用;但是嚴格區分的話,在統計上,二者是有不同。
不同就在于,觀察值 x 與參數 θ 的不同的角色。概率是用于描述一個函數,這個函數是在給定參數值的情況下的關于觀察值的函數。例如,已知一個硬幣是均勻的(在拋落中,正反面的概率相等),那連續10次正面朝上的概率是多少?這是個概率。
而似然是用于在給定一個觀察值時,關于用于描述參數的情況。例如,如果一個硬幣在10次拋落中正面均朝上,那硬幣是均勻的(在拋落中,正反面的概率相等)概率是多少?這里用了概率這個詞,但是實質上是“可能性”,也就是似然了。
后驗概率
Posterior probability
后驗概率是關于隨機事件或者不確定性斷言的條件概率,是在相關證據或者背景給定并納入考慮之后的條件概率。后驗概率分布就是未知量作為隨機變量的概率分布,并且是在基于實驗或者調查所獲得的信息上的條件分布。“后驗”在這里意思是,考慮相關事件已經被檢視并且能夠得到一些信息。
后驗概率是關于參數 θ 在給定的證據信息 X 下的概率: p(θ|x) 。
若對比后驗概率和似然函數,似然函數是在給定參數下的證據信息 X 的概率分布: p(x|θ) 。
二者有如下關系:
我們用 p(θ) 表示概率分布函數,用 p(x|θ) 表示觀測值 x 的似然函數。后驗概率定義如下:
p(θ|x)=p(x|θ)p(θ)p(x)
鑒于分母不變,可以表達成如下正比關系:
Posteriorprobability∝Likelihood×Prior probability
來先舉一個例子:
如果有一所學校,有60%是男生和40%是女生。女生穿褲子與裙子的數量相同;所有男生穿褲子。一個觀察者,隨機從遠處看到一名學生,觀察者只能看到該學生穿褲子。那么該學生是女生的概率是多少?這里題目中觀察者比如近似眼看直接不清性別,或者從裝扮上看不出。答案可以用貝葉斯定理來算。
用事件 G 表示觀察到的學生是女生,用事件 T 表示觀察到的學生穿褲子。于是,現在要計算 P(G|T) ,我們需要知道:
P(G) ,表示一個學生是女生的概率,這是在沒有任何其他信息下的概率。這也就是我們說的先驗概率。由于觀察者隨機看到一名學生,意味著所有的學生都可能被看到,女生在全體學生中的占比是 40 ,所以概率是 0.4 。
P(B) ,是學生不是女生的概率,也就是學生是男生的概率,也就是在沒有其他任何信息的情況下,學生是男生的先驗概率。 B 事件是 G 事件的互補的事件,這個比例是 60 ,也即 0.6 。
P(T|G) 是在女生中穿褲子的概率,根據題目描述,是相同的 0.5 。這也是 T 事件的概率,given G 事件。
P(T|B) 是在男生中穿褲子的概率,這個值是1。
P(T) 是學生穿褲子的概率,即任意選一個學生,在沒有其他信息的情況下,TA穿褲子的概率。如果要計算的話,那可以計算出所有穿褲子的學生的數量,除以總數,總數可以假設為常數 C ,但是最后會被約去。或者根據全概率公式 P(T)=P(T|G)P(G)+P(T|B)P(B) 計算得到 P(T)=0.5×0.4+1×0.6=0.8 。
基于以上所有信息,如果觀察到一個穿褲子的學生,并且是女生的概率是
P(G|T)=P(T|G)P(G)P(T)=0.5×0.40.8=0.25.
這就是貝葉斯公式的一個示例,如果是兩個相關的屬性,我們只知道其中一些的概率分布情況,就可以根據貝葉斯公式來計算其他的一些后驗概率的情況。
總結
以上是生活随笔為你收集整理的先验概率、似然函数与后验概率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习是什么——周志华
- 下一篇: 教你如何区分描述统计学与推断统计学