深度学习中的贝叶斯统计简介
貝葉斯用概率反映知識狀態的確定性程度。數據集能夠被直接觀測到,因此不是隨機的。另一方面,真實參數θ是未知或不確定的,因此可以表示成隨機變量。在觀察到數據前,我們將θ的已知知識表示成先驗概率分布(prior probability distribution),p(θ)(有時簡單地稱為”先驗”)。
相對于最大似然估計,貝葉斯估計有兩個重要區別:(1)、不像最大似然方法預測時使用θ的點估計,貝葉斯方法使用θ的全分布。(2)、是由貝葉斯先驗分布造成的。先驗能夠影響概率質量密度朝參數空間中偏好先驗的區域偏移。實踐中,先驗通常表現為偏好更簡單或更光滑的模型。對貝葉斯方法的批判認為先驗是人為主觀判斷影響預測的來源。
當訓練數據很有限時,貝葉斯方法通常泛化得更好,但是當訓練樣本數目很大時,通常會有很大的計算代價。
原則上,我們應該使用參數θ的完整貝葉斯后驗分布進行預測,但單點估計常常也是需要的。希望使用點估計的一個常見原因是,對于大多數有意義的模型而言,大多數涉及到貝葉斯后驗的計算是非常棘手的,點估計提供了一個可行的近似解。我們仍然可以讓先驗影響點估計的選擇來利用貝葉斯方法的優點,而不是簡單地回到最大似然估計。一種能夠做到這一點的合理方式是選擇最大后驗(Maximum A Posteriori, MAP)點估計。MAP估計選擇后驗概率最大的點(或在θ是連續值的更常見情況下,概率密度最大的點)。
MAP貝葉斯推斷的優勢是能夠利用來自先驗的信息,這些信息無法從訓練數據中獲得。該附加信息有助于減少最大后驗點估計的方差(相比于ML估計)。然而,這個優點的代價是增加了偏差。
許多正規化估計方法,例如權重衰減正則化的最大似然學習,可以被解釋為貝葉斯推斷的MAP近似。MAP貝葉斯推斷提供了一個直觀的方法來設計復雜但可解釋的正則化項。例如,更復雜的懲罰項可以通過混合高斯分布作為先驗得到,而不是一個單獨的高斯分布。
貝葉斯定理(Bayes’ theorem)是概率論中的一個定理,它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關于概率的解說中,貝葉斯定理能夠告知我們如何利用新證據修改已有的看法。
通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A(發生)的條件下的概率是不一樣的;然而,這兩者是有確定的關系的,貝葉斯定理就是這種關系的陳述。貝葉斯公式的一個用途在于通過已知的三個概率函數推出第四個。
作為一個普遍的原理,貝葉斯定理對于所有概率的解釋是有效的;然而,頻率主義者和貝葉斯主義者對于在應用中,某個隨機事件的概率該如何被賦值,有著不同的看法:頻率主義者根據隨機事件發生的頻率,或者總體樣本里面的發生的個數來賦值概率;貝葉斯主義者則根據未知的命題來賦值概率。這樣的理念導致貝葉斯主義者有更多的機會使用貝葉斯定理。
貝葉斯定理是關于隨機事件A和B的條件概率的一則定理:
其中P(A|B)是在B發生的情況下A發生的可能性。
在貝葉斯定理中,每個名詞都有約定俗成的名稱:
(1)、P(A|B)是已知B發生后A的條件概率,也由于得自B的取值而被稱作A的后驗概率;
(2)、P(B|A)是已知A發生后B的條件概率,也由于得自A的取值而被稱作B的后驗概率;
(3)、P(A)是A的先驗概率(或邊緣概率),之所以稱為”先驗”是因為它不考慮任何B方面的因素;
(4)、P(B)是B的先驗概率或邊緣概率。
按這些術語,貝葉斯定理可表述為:后驗概率=(相似度 * 先驗概率) / 標準化常量。也就是說,后驗概率與先驗概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardized likelihood),貝葉斯定理可表述為:后驗概率=標準相似度 * 先驗概率。
貝葉斯概率(Bayesian probability)是由貝葉斯理論所提供的一種對概率的解釋,它采用將概率定義為某人對一個命題信任的程度的概念。貝葉斯理論同時也建議貝葉斯定理可以用作根據新的信息導出或者更新現有的置信度的規則。
英國學者托馬斯·貝葉斯在《論有關機遇問題的求解》中提出一種歸納推理的理論,后被一些統計學者發展為一種系統的統計推斷方法,稱為貝葉斯方法。采用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是唯一合理的統計推斷方法的統計學者,組成數理統計學中的貝葉斯學派。
貝葉斯統計中的兩個基本概念是先驗分布和后驗分布。
先驗分布:它是總體分布參數θ的一個概率分布。貝葉斯學派的根本觀點,是認為在關于θ的任何統計推斷問題中,除了使用樣本X所提供的信息外,還必須對θ規定一個先驗分布,它是在進行推斷時不可或缺的一個要素。貝葉斯學派把先驗分布解釋為在抽樣前就有的關于θ的先驗信息的概率表述,先驗分布不必有客觀的依據,它可以部分地或完全地基于主觀信念。
后驗分布:根據樣本X的分布及θ的先驗分布,用概率論中求條件概率分布的方法,可算出在已知X的條件下,θ的條件分布。因為這個分布是在抽樣以后才得到的,故稱為后驗分布。貝葉斯學派認為:這個分布綜合了樣本X及θ先驗分布所提供的有關的信息。抽樣的全部目的,就在于完成由先驗分布到后驗分布的轉換。
貝葉斯推斷方法的關鍵在于所作出的任何推斷都必須也只須根據后驗分布,而不能再涉及X的樣本分布。
貝葉斯學派與頻率學派爭論的焦點在于先驗分布的問題。所謂頻率學派是指堅持概率的頻率解釋的統計學家形成的學派。貝葉斯學派認為先驗分布可以是主觀的,它沒有也不需要有頻率解釋。而頻率學派則認為,只有在先驗分布有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分布,否則就會喪失客觀性。
以上內容主要摘自:?《深度學習中文版》?和?維基百科
GitHub:https://github.com/fengbingchun/NN_Test
總結
以上是生活随笔為你收集整理的深度学习中的贝叶斯统计简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++/C++11中头文件algorit
- 下一篇: 朴素贝叶斯分类器简介及C++实现(性别分