关于Beta分布、二项分布与Dirichlet分布、多项分布的关系
from:http://blog.csdn.net/u010140338/article/details/41344853
From : http://www.cnblogs.com/wybang/p/3206719.html
?????????? http://cos.name/2013/01/lda-math-beta-dirichlet/
?
在機器學習領域中,概率模型是一個常用的利器。用它來對問題進行建模,有幾點好處:1)當給定參數分布的假設空間后,可以通過很嚴格的數學推導,得到模型的似然分布,這樣模型可以有很好的概率解釋;2)可以利用現有的EM算法或者Variational method來學習。通常為了方便推導參數的后驗分布,會假設參數的先驗分布是似然的某個共軛分布,這樣后驗分布和先驗分布具有相同的形式,這對于建模過程中的數學推導可以大大的簡化,保證最后的形式是tractable。
? ? 在概率模型中,Dirichlet這個詞出現的頻率非常的高。初始機器學習的同學或者說得再廣一些,在學習概率模型的時候,很多同學都不清楚為啥一個表現形式如此奇怪的分布Dirichlet分布會出現在我們的教科書中,它是靠啥關系攀上了多項分布(Multinomial distribution)這個親戚的,以至于它可以“堂而皇之”地扼殺我大天朝這么多數學家和科學家夢想的?為了引出背后這層關系,我們需要先介紹一個概念——共軛先驗(Conjugate Prior)。
- Conjugate Prior:?In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood.?----from wiki
- 用中文來講,在貝葉斯統計理論中,如果某個隨機變量Θ的后驗概率?p(θ|x)和其先驗概率p(θ)屬于同一個分布簇的,那么稱p(θ|x)和p(θ)為共軛分布,同時,也稱p(θ)為似然函數p(x|θ)的共軛先驗。
? ? 介紹了這個重要的概念之后,我們回到文章的正題。
首先需要弄清楚什么是二項分布(Binomial distribution)。這個概念是從伯努利分布推進的。伯努利分布是一個離散型的隨機分布,其中的隨機變量只有兩類取值,非正即負{+,-}。二項分布即重復n次的伯努利試驗,記為 X~b(n,p)。概率密度函數(概率質量函數)為。
-------------------------------------------------------------------------------------
Beta分布的由來:
----------------------------------------------------------------------------------------------------------------------------------
看看Beta分布,給定參數和,取值范圍為[0,1]的隨機變量x的概率密度函數,其中,。這里假定,先驗分布和似然概率如下所示:
那么很容易知道后驗概率為
?????
-------------------------------------------------------------------------------------------------------------------
Dirichlet 分布的由來:
-------------------------------------------------------------------------------------------------------------------
多項分布,從字面上所表現出的含義,我們也大抵知道它的意思。它本身確實也是這樣的,其單次試驗中的隨機變量的取值不再是0-1的,而是有多種離散值可能(1,2,3...,k),其中。多項分布的概率密度函數為。而Dirichlet分布的的密度函數形式也如出一轍:,其中。到這里,我們可以看到Beta分布和Dirichlet 分布有多相似啊,二項分布和多項分布有多相似啊!
? ? ?再一次來看看共軛。假設有先驗分布
,
另有似然函數
則后驗概率
,和Dirichlet 分布形式一致。
? ? 其實,細心的讀者已經發現,這里這四類分布,如果但從數學形式上看,它們的組織形式都是一致的,都是通過乘積的形式構成,加上先驗分布、似然函數和后驗分布之間的乘積推導關系,可以很容易發現,它們所表現出的共軛性質很容易理解。
總結
以上是生活随笔為你收集整理的关于Beta分布、二项分布与Dirichlet分布、多项分布的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据挖掘基础知识-矩阵(分解)
- 下一篇: 几款开源的数据挖掘工具