贝叶斯理论在机器学习中的应用
??貝葉斯理論應用于機器學習方面產(chǎn)生了多種不同的方法和多個定理,會讓人有些混淆。主要有最大后驗概率,極大似然估計(MLE),樸素貝葉斯分類器,還有一個最小描述長度準則。
??貝葉斯理論是基于概率的理論,設\(\lambda_{ij}\)是將實為\(c_j\)的樣本標記為\(c_i\)的損失,則將樣本\(x\)標記為\(c_i\)的期望損失是
\[R(c_i|x)=\sum_{j=1}^{N}{\lambda_{ij}P(c_j|x)} \hspace{2cm}(1) \]當
\[\lambda_{ij}=\begin{cases} 0,&\text {if i=j} \\ 1,&\text {otherwise}\end{cases} \hspace{2cm}(2) \]有\[ R(c|x)=1-P(c|x) \hspace{2cm}(3) \]??所以對于樣本\(x\),我們要選擇使期望損失最小的標記\(c\),即\(minR(c|x)\),等價于\(maxP(c|x)\),這就是最大后驗概率的含義,也是貝葉斯決策論。
??根據(jù)貝葉斯定理,
\[P(c|x)=\frac{P(c)P(x|c)}{P(x)} \hspace{2cm}(4) \]??因此,估計\(P(c|x)\)的問題就轉換為如何基于訓練數(shù)據(jù)\(D\)來估計先驗概率\(P(c)\)和似然概率\(P(x|c)\)。一般來說,先驗概率\(P(c)\)可通過各類樣本出現(xiàn)的頻率來估計,而似然概率\(P(x|c)\)由于涉及關于\(x\)所有屬性的聯(lián)合概率,難以直接根據(jù)樣本出現(xiàn)的頻率進行估計。
??假設\(P(x|c)\)具有確定的形式并且被參數(shù)向量\(\theta_c\)唯一確定,我們可以將\(P(x|c)\)記為\(P(x|\theta_c)\)。對于參數(shù)\(\theta_c\)的估計,統(tǒng)計學界有兩個不同的學派,頻率主義認為參數(shù)雖然未知,但卻是客觀存在的固定值,因此,可通過優(yōu)化似然函數(shù)等準則確定。令\(D_c\)表示訓練集\(D\)中第\(c\)類樣本組成的集合,假設這些樣本是獨立同分布的(注意這里是樣本),則參數(shù)\(\theta_c\)對于數(shù)據(jù)集\(D\)的似然是
\[P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c) \hspace{2cm}(5) \]對\(\theta_c\)進行極大似然估計,就是去尋找能最大化似然\(P(D_c|\theta_c)\)的參數(shù)值\(\widehat{\theta}_c\),即
\[\widehat{\theta}_c=\mathop{arg\text{ }max}_{\theta_c}P(D_c|\theta_c) \hspace{2cm}(6) \]。這就是極大似然估計(MLE)的方法,這種估計結果的準確性嚴重依賴于所假設的概率分布形式是否符合潛在的真實數(shù)據(jù)分布。
??除頻率學派外的另一個學派就是貝葉斯學派,貝葉斯學派認為參數(shù)是未觀察到的隨機變量,其本身也可能有分布,因此,可假定參數(shù)服從一個先驗分布,然后基于觀測到的數(shù)據(jù)來計算參數(shù)的后驗分布,由此產(chǎn)生了樸素貝葉斯分類器。
??樸素貝葉斯分類器假設對已知類別,所有屬性相互獨立(注意是屬性),換言之,假設每個屬性獨立地對分類結果發(fā)生影響。于是,
\[P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod^d_{i=1}P(x_i|c) \hspace{2cm}(7) \]其中\(d\)為屬性數(shù)目,\(x_i\)為\(x\)在第\(i\)個屬性上的取值。由于對于所有類別來說\(P(x)\)相同,因此有
\[h_{nb}(x)=\mathop{arg\text{ }max}_{c \in y} P(c)\prod^d_{i=1}P(x_i|c) \hspace{2cm}(8) \]這就是樸素貝葉斯分類器的表達式。
??當把“屬性獨立”條件放寬,適當考慮一部分屬性鍵的相互以來信息時,就得到了半樸素貝葉斯分類器。
??貝葉斯網(wǎng)借助有向無環(huán)圖來刻畫屬性之間依賴關系,并使用條件概率表來描述屬性的聯(lián)合概率分布,最小描述長度準則(MDL)就是指找到一個能以最短編碼長度描述訓練數(shù)據(jù)的模型,這里的模型就是指貝葉斯網(wǎng)。
轉載于:https://www.cnblogs.com/bambipai/p/8231679.html
總結
以上是生活随笔為你收集整理的贝叶斯理论在机器学习中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: defined 函数使用
- 下一篇: python学习笔记(二)— 集合