统计特性和概率估计-1 (数学推导与证明)
- probabilistic & estimation:常用分布,共軛特性,最大似然估計,最大后驗估計,指數族和自然參數
- statistic properties:輔助機器學習算法證明,包括重要的切比雪夫不等式和馬爾科夫不等式
1. 概率&估計-Probabilistic & Estimation
1.1 高斯分布與高階矩
1-D高斯情況:
k-D高斯情況:
多元高斯函數的一階矩(Fisrt Order Moment)-期望:
多元高斯函數的二階矩(Second Order Moment) :
現在,改變軸使得向量x-μ特征向量對齊:
1.2 一些重要的且常用的分布
我們要研究的大多數分布來源于指數族。指數族分布可以用自然參數e進行表示:
- 實際上高斯分布就是一種特殊的指數分布,1-D高斯分布證明如下。
- Gamma分布與Inverse-Gamma分布(x<0, pdf=0不予討論)
Gamma函數及其性質:
Gamma / Inverse-Gamma Distribution (a>0形狀參數,陡峭參數; b>0尺度參數,散布情況):?
Gamma分布其實并不是很常用,但是它衍生出的卡方分布、指數分布、T分布非常有用。
- Wishart分布與Invert-Wishart分布
- weight 分布
k-D Dirichlet 分布:
實際上k-D Dirichlet分布就是Beta分布在高維情形的推廣。在貝葉斯推斷中,Dirichlet分布作為多項分布的共軛先驗得到應用,在machine learning中常被用于構建Dirichlet混合模型。
Beta分布:
machine learning中, Beta分布作為貝努利分布和二項分布的共軛先驗分布的密度函數,廣為應用。
- Discrete分布
k-D 多項分布:
特例-二項分布:
Bernouli分布:
Poission分布:
1.3 二項分布Binomal與泊松分布Poission之間的關系
也就是說,當二項分布中的試驗次數n比較大,事件A在一次試驗中發生的概率p比較小時,二項分布的一個事件發生次數的概率可以用泊松分布的概率來模擬。
1.4 非指數族分布
非指數族分布通常可以利用兩個指數族分布構建。例如較著名的Student-t分布:
1.5 共軛-conjugacy
首先考慮后驗與先驗之間的關系:
如果p(θ|X)和p(θ)的概率密度同屬于一個分布,那么后驗概率將非常好求。例如,如果先驗以及似然函數服從高斯分布,那么后要也一定屬于高斯分布。
在貝葉斯統計中,如果后驗分布與先驗分布屬于同類,則先驗分布與后驗分布被稱為共軛分布,而先驗分布被稱為似然函數的共軛先驗。假定似然函數p(X|θ)是已知的,問題就是我們選取什么樣的先驗分布p(θ),會讓后驗分布與先驗分布具有相同的數學形式。共軛先驗的好處主要在于代數上的方便性,可以直接給出后驗分布的封閉形式,否則的話只能數值計算。共軛先驗也有助于獲得關于似然函數如何更新先驗分布的直觀印象。
這里需要特別補充的是所有指數家族的分布都有共軛先驗。
1.6 最大似然估計 Maximum Likellihood Estimation
- 案例: 1-D 高斯
假定我們相信數據是服從高斯分布的。很明顯藍色的高斯分布曲線比綠色的高斯分布曲線更合理。但是這里我們需要用最大似然函數估計來解釋為什么。
為了將乘法運算簡化成加法運算,這里我們采用對數似然函數log-likelihood-function。上式轉化為:
接下來分別對均值和方差分別求偏導等于0,就可以獲得最大似然對應的參數。
1.7 最大后驗 Maximum A Posterior-MAP
- 案例: 1-D 高斯
對于上面的問題,假設我們對μ有相同的先驗知識,也就是說μ也服從高斯分布。那么這一類的估計稱為最大后驗MAP:
對于高斯情況,我們同樣可以采用求偏導等于零,獲取最大值對應的參數。
總結
以上是生活随笔為你收集整理的统计特性和概率估计-1 (数学推导与证明)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面向对象编程的两顶帽子
- 下一篇: C++教程[又能学英文,又能学编程]