MCMC方法与变分推断
貝葉斯推理(Bayesian inference)是統(tǒng)計(jì)學(xué)中的一個(gè)重要問(wèn)題,也是許多機(jī)器學(xué)習(xí)方法中經(jīng)常遇到的問(wèn)題。例如,用于分類的高斯混合模型或用于主題建模的潛在狄利克雷分配(Latent Dirichlet Allocation,簡(jiǎn)稱LDA)模型等概率圖模型都需要在擬合數(shù)據(jù)時(shí)解決這一問(wèn)題。
同時(shí),由于模型設(shè)置(假設(shè)、維度……)不同,貝葉斯推理問(wèn)題有時(shí)會(huì)很難解決。在解決大型問(wèn)題時(shí),精確的方案往往需要繁重的計(jì)算,要完成這些難以處理的計(jì)算,必須采用一些近似技術(shù),并構(gòu)建快速且有可擴(kuò)展性的系統(tǒng)。
本文將討論兩種可用于解決貝葉斯推理問(wèn)題的主要方法:基于采樣的馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo,簡(jiǎn)稱MCMC)方法和基于近似的變分推理(Variational Inference,簡(jiǎn)稱VI)方法。
本文第一部分將討論貝葉斯推理問(wèn)題,并介紹幾個(gè)機(jī)器學(xué)習(xí)應(yīng)用的經(jīng)典案例,當(dāng)然,這些案例中會(huì)出現(xiàn)貝葉斯推理問(wèn)題。第二部分將全面介紹用于解決該問(wèn)題的MCMC技術(shù),并詳細(xì)介紹其中的兩種算法:Metropolis-Hasting算法和吉布斯采樣(Gibbs Sampling)算法。最后,第三部分將介紹變分推斷,并了解如何通過(guò)優(yōu)化參數(shù)化數(shù)族分布得到近似解。
注意,以a(∞)為標(biāo)記的小節(jié)數(shù)學(xué)專業(yè)性非常強(qiáng),跳過(guò)也不會(huì)影響對(duì)本文的整體理解。還要注意,本文中的p(.)可以用來(lái)表示概率、概率密度或概率分布,具體含義取決于上下文。
轉(zhuǎn)存失敗重新上傳取消
貝葉斯推理問(wèn)題
這一部分提出了貝葉斯推理問(wèn)題,討論了一些計(jì)算困難,并給出了LDA算法的例子。LDA算法是一種具體的主題建模機(jī)器學(xué)習(xí)技術(shù),能夠反映貝葉斯推理問(wèn)題。
統(tǒng)計(jì)推斷旨在根據(jù)可觀察到的事物來(lái)了解不可觀察到的事物。即,統(tǒng)計(jì)推斷是基于一個(gè)總體或一些樣本中的某些觀察變量(通常是影響)得出結(jié)論的過(guò)程,例如關(guān)于總體或樣本中某些潛在變量(通常是原因)的準(zhǔn)時(shí)估計(jì)、置信區(qū)間或區(qū)間估計(jì)等。
而貝葉斯推理則是從貝葉斯的角度產(chǎn)生統(tǒng)計(jì)推斷的過(guò)程。簡(jiǎn)而言之,貝葉斯范式是一種統(tǒng)計(jì)/概率范式,在這種范式中,每次記錄新的觀測(cè)數(shù)據(jù)時(shí)就會(huì)更新由概率分布建模的先驗(yàn)知識(shí),觀測(cè)數(shù)據(jù)的不確定性則由另一個(gè)概率分布建模。支配貝葉斯范式的整個(gè)思想嵌入在所謂的貝葉斯定理中,該定理表達(dá)了更新知識(shí)(“后驗(yàn)”)、已知知識(shí)(“先驗(yàn)”)以及來(lái)自觀察的知識(shí)(“可能性”)之間的關(guān)系。
一個(gè)經(jīng)典的例子是用貝葉斯推理進(jìn)行參數(shù)估計(jì)。假設(shè)一個(gè)模型中數(shù)據(jù)x是根據(jù)未知參數(shù)θ的概率分布生成的,并且有關(guān)于參數(shù)θ的先驗(yàn)知識(shí),可以用概率分布p(θ)來(lái)表示。那么,當(dāng)觀察到數(shù)據(jù)x時(shí),我們可以使用貝葉斯定理更新關(guān)于該參數(shù)的先驗(yàn)知識(shí),如下所示:
轉(zhuǎn)存失敗重新上傳取消
貝葉斯定理應(yīng)用于給定觀測(cè)數(shù)據(jù)的參數(shù)推斷的說(shuō)明。
計(jì)算困難
根據(jù)貝葉斯定理,后驗(yàn)分布的計(jì)算需要三個(gè)條件:先驗(yàn)分布、可能性和證據(jù)。前兩個(gè)條件很容易理解,因?yàn)樗鼈兪羌僭O(shè)模型的一部分(在許多情況下,先驗(yàn)分布和可能性是顯而易見(jiàn)的)。然而,第三個(gè)條件,即歸一化因子,需要如下計(jì)算:
轉(zhuǎn)存失敗重新上傳取消
雖然在低維中,這個(gè)積分可以較容易地計(jì)算出來(lái),但在高維中它會(huì)變得難以處理。在上述案例中,對(duì)后驗(yàn)分布進(jìn)行精確計(jì)算是不可行的,必須使用一些近似技術(shù)(例如平均計(jì)算)來(lái)獲得后驗(yàn)分布。
貝葉斯推理問(wèn)題還可能會(huì)產(chǎn)生一些其他的計(jì)算困難。例如,當(dāng)某些變量是離散的時(shí)候會(huì)產(chǎn)生組合學(xué)問(wèn)題。馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo,簡(jiǎn)稱MCMC)和變分推理(Variational Inference,簡(jiǎn)稱VI)是最常用于解決這些問(wèn)題的兩種方法。下文將描述這兩種方法,尤其關(guān)注“歸一化因子問(wèn)題”,但是應(yīng)該記住,這些方法也可用于與貝葉斯推理相關(guān)的其他計(jì)算困難。
為了讓接下來(lái)的章節(jié)更易于理解,可以觀察到,由于x應(yīng)該是給定的,因此可以作為參數(shù),那么,θ的概率分布則被定義為歸一化因子
轉(zhuǎn)存失敗重新上傳取消
在描述MCMC和VI兩個(gè)部分之前,先來(lái)看一個(gè)具體例子,了解在機(jī)器學(xué)習(xí)LDA中存在的貝葉斯推理問(wèn)題。
舉例
貝葉斯推理問(wèn)題通常出現(xiàn)在需要假設(shè)概率圖模型或根據(jù)給定觀測(cè)值得出模型潛變量的機(jī)器學(xué)習(xí)方法中。在主題建模中,潛在狄利克雷分配(LDA)定義了一個(gè)用于描述語(yǔ)料庫(kù)文本的模型。因此,給定大小為V的完整語(yǔ)料庫(kù)詞匯表和給定數(shù)量為T的主題,模型假設(shè):
· 對(duì)于每個(gè)主題,在詞匯表上都存在一個(gè)“主題詞”的概率分布(使用Dirichlet先驗(yàn)假設(shè))
· 對(duì)于每個(gè)文檔,在主題上都存在一個(gè)“文檔主題”的概率分布(使用另一個(gè)Dirichlet先驗(yàn)假設(shè))
· 對(duì)文檔中的每個(gè)單詞進(jìn)行采樣。首先,從文檔的“文檔 - 主題”分布中對(duì)主題進(jìn)行采樣;其次,從附加到采樣話題的“主題 - 單詞”分布中采樣一個(gè)單詞。
該方法的名稱來(lái)源于模型中假設(shè)的Dirichlet先驗(yàn),其目的是推斷觀察到的語(yǔ)料庫(kù)中的潛在主題以及每個(gè)文檔的主題分解。即使不深入研究LDA方法的細(xì)節(jié),也可以粗略地用w來(lái)表示語(yǔ)料庫(kù)中單詞的向量,用z來(lái)表示與這些單詞相關(guān)的主題向量,用貝葉斯方法根據(jù)觀測(cè)到的w推斷出z:
轉(zhuǎn)存失敗重新上傳取消
由于維度過(guò)高,這里無(wú)法推斷出歸一化因子,同時(shí),還存在組合問(wèn)題(因?yàn)橐恍┳兞渴请x散的),需要使用MCMC方法或VI方法來(lái)獲得近似解。對(duì)主題建模及其特定的貝葉斯推理問(wèn)題感興趣的讀者可以看看下面這篇關(guān)于LDA的參考文獻(xiàn)。
轉(zhuǎn)存失敗重新上傳取消LDA方法的說(shuō)明。
轉(zhuǎn)存失敗重新上傳取消
馬爾可夫鏈蒙特卡洛(MCMC)方法
上文提到,貝葉斯推理問(wèn)題中的主要困難來(lái)自于歸一化因子。本節(jié)將描述MCMC采樣方法,為歸一化因子以及與貝葉斯推理相關(guān)的其他計(jì)算困難提供解決方案。
采樣方法
采樣方法如下,首先假設(shè)有一種方法(MCMC)可以從由一個(gè)因子定義的概率分布中抽取樣本。然后,可以從這個(gè)分布中得到樣本(僅使用未標(biāo)準(zhǔn)化的部分定義),并使用這些樣本計(jì)算各種準(zhǔn)時(shí)統(tǒng)計(jì)量,如均值和方差,甚至通過(guò)核密度估計(jì)來(lái)求得近似分布,從而避免處理涉及后驗(yàn)的棘手計(jì)算。
與下一節(jié)所述的VI方法相反,對(duì)所研究的概率分布(貝葉斯推理中的后驗(yàn)分布)MCMC方法無(wú)需假設(shè)模型。因此,該方法具有低偏差但高方差,這意味著大多數(shù)情況下,獲得的結(jié)果比從VI方法中得到的結(jié)果花費(fèi)更多時(shí)間精力,但也更準(zhǔn)確。
總結(jié)本小節(jié),即上述的采樣過(guò)程并不局限于后驗(yàn)分布的貝葉斯推理,它還可以普遍用于所有由歸一化因子定義的概率分布。
轉(zhuǎn)存失敗重新上傳取消采樣方法(MCMC)的說(shuō)明。
MCMC方法的概念
在統(tǒng)計(jì)學(xué)中,馬爾可夫鏈蒙特卡羅(MCMC)算法旨在從給定的概率分布中生成樣本。該方法名稱中的“蒙特卡羅”部分是出于取樣目的,而“馬爾可夫鏈”部分來(lái)自獲取這些樣本的方式。
為了得到樣本,要建立一個(gè)馬爾可夫鏈,從其平穩(wěn)分布中獲得樣本。然后,可以從馬爾可夫鏈中模擬隨機(jī)的狀態(tài)序列,該序列足夠長(zhǎng),能夠(幾乎)達(dá)到穩(wěn)態(tài),再保留生成的一些狀態(tài)作為樣本。
在隨機(jī)變量生成技術(shù)中,MCMC是一種相當(dāng)高級(jí)的方法,可以從一個(gè)非常困難的概率分布中獲得樣本,這個(gè)概率分布可能僅由一個(gè)乘法常數(shù)定義。更出乎意料的是,可以用MCMC從一個(gè)未經(jīng)標(biāo)準(zhǔn)化的分布中獲得樣本,這來(lái)自于定義馬爾可夫鏈的特定方式,馬爾可夫鏈對(duì)這些歸一化因子并不敏感。
轉(zhuǎn)存失敗重新上傳取消
MCMC方法旨在從一個(gè)困難的概率分布中生成樣本,該概率分布可以僅由一個(gè)因子定義而成。
馬爾可夫鏈的定義
整個(gè)MCMC方法是基于馬爾可夫鏈的建立,并從其平穩(wěn)分布中取樣。為此,Metropolis-Hasting和吉布斯采樣算法都使用了馬氏鏈的一個(gè)特殊性質(zhì):可逆性。
狀態(tài)空間為E的馬爾可夫鏈,轉(zhuǎn)移概率由下式表示
轉(zhuǎn)存失敗重新上傳取消
如果存在概率分布γ,上式則是可逆的
轉(zhuǎn)存失敗重新上傳取消
對(duì)于這樣的馬氏鏈,可以很容易地證明有
轉(zhuǎn)存失敗重新上傳取消
然后,γ是一個(gè)平穩(wěn)分布(對(duì)不可約馬氏鏈來(lái)說(shuō),也是唯一一個(gè)平穩(wěn)分布)。
現(xiàn)在假設(shè)想要采樣的概率分布π僅由一個(gè)因子定義
轉(zhuǎn)存失敗重新上傳取消
(其中C是未知的乘法常數(shù))。可以注意到以下等式成立
轉(zhuǎn)存失敗重新上傳取消
接著,是轉(zhuǎn)移概率為k(.,.)的馬爾可夫鏈被定義為驗(yàn)證過(guò)去的等式,如預(yù)期那樣將π定義為平穩(wěn)分布。因此,我們可以定義一個(gè)馬爾可夫鏈的平穩(wěn)概率分布為π,該分布不能精確計(jì)算。
Gibbs采樣轉(zhuǎn)換(∞)
假設(shè)待定義的Markov鏈?zhǔn)荄維的,則
轉(zhuǎn)存失敗重新上傳取消
吉布斯采樣(Gibbs Sampling)假設(shè)即使在無(wú)法得知聯(lián)合概率的情況下,也可以基于其他維度計(jì)算得出某一維度的條件分布。基于此假設(shè),Gibbs采樣轉(zhuǎn)換可定義為,下一階段狀態(tài),如在n+1次迭代的狀態(tài),可由如下步驟得出。
首先,從D維X_n中隨機(jī)選擇一個(gè)整數(shù)d。然后,根據(jù)相應(yīng)的條件概率,通過(guò)采樣賦予維度d一個(gè)新數(shù)值。這一過(guò)程中,其他維度保持如下?tīng)顟B(tài)不變:
轉(zhuǎn)存失敗重新上傳取消
其中
轉(zhuǎn)存失敗重新上傳取消
是基于其他維度得出的第d個(gè)維度的條件分布。
通常,設(shè)
轉(zhuǎn)存失敗重新上傳取消
則轉(zhuǎn)換概率可以表示為
轉(zhuǎn)存失敗重新上傳取消
并且,在唯一有意義的情況下,局部平衡按預(yù)期得到了驗(yàn)證
轉(zhuǎn)存失敗重新上傳取消
Metropolis-Hasting轉(zhuǎn)換(∞)
有時(shí)候,計(jì)算Gibbs采樣中的條件分布也是很復(fù)雜的。在這種情況下,可以采用Metropolis-Hasting算法。運(yùn)用該算法,需要先定義一個(gè)側(cè)向的轉(zhuǎn)換概率h(.,.),該概率將被用于建議轉(zhuǎn)換。下一階段(n+1次迭代)Markov鏈的狀態(tài)可由如下步驟得出。首先,從h中生成“建議轉(zhuǎn)換”x,并計(jì)算一個(gè)關(guān)聯(lián)概率r用于接受x:
轉(zhuǎn)存失敗重新上傳取消
可以得到如下有效轉(zhuǎn)換
轉(zhuǎn)存失敗重新上傳取消
通常,轉(zhuǎn)換概率可以表示為
轉(zhuǎn)存失敗重新上傳取消
同時(shí),局部平衡按預(yù)期得到了驗(yàn)證
轉(zhuǎn)存失敗重新上傳取消
采樣過(guò)程
定義Markov鏈后,模擬一串隨機(jī)狀態(tài)序列(隨機(jī)初始化數(shù)值),并對(duì)其中一些狀態(tài)進(jìn)行設(shè)定,如設(shè)置為服從目標(biāo)分布的獨(dú)立樣本。
第一步,為了讓樣本(近似)服從目標(biāo)分布,僅考慮與初始設(shè)定序列狀態(tài)相差大的狀態(tài),使Markov鏈近似達(dá)到穩(wěn)定狀態(tài)(理論上來(lái)說(shuō),漸進(jìn)達(dá)到穩(wěn)定狀態(tài))。這樣一來(lái),初始設(shè)定狀態(tài)就沒(méi)樣本那么有用了。這一達(dá)到平穩(wěn)的階段被稱為老化時(shí)間(burn-in time)。需要注意的是,實(shí)際操作中很難知道該階段會(huì)持續(xù)多長(zhǎng)時(shí)間。
第二步,為了獲得(近似)獨(dú)立樣本,不能把所有的序列連續(xù)狀態(tài)都放在老化時(shí)間之后。實(shí)際上,Markov鏈的定義中就已經(jīng)表明了兩個(gè)連續(xù)狀態(tài)之間有很強(qiáng)的聯(lián)系。因此,需要把狀態(tài)相差很遠(yuǎn)的樣本默認(rèn)為近似獨(dú)立。在實(shí)際操作中,可以通過(guò)分析自相關(guān)函數(shù)來(lái)預(yù)測(cè)兩個(gè)近似獨(dú)立狀態(tài)間所需要的滯后(僅限于數(shù)值數(shù)據(jù))。
所以,為了得到服從目標(biāo)分布的獨(dú)立樣本,需要從位于老化時(shí)間B之后的、彼此間滯后為L(zhǎng)的初始序列中分離出狀態(tài)。設(shè)Markov鏈連續(xù)狀態(tài)為
轉(zhuǎn)存失敗重新上傳取消
則樣本狀態(tài)為
轉(zhuǎn)存失敗重新上傳取消
轉(zhuǎn)存失敗重新上傳取消MCMC采樣需要考慮老化時(shí)間和滯后。
轉(zhuǎn)存失敗重新上傳取消
變分推斷(VI)
另一個(gè)可用于解決復(fù)雜推斷計(jì)算問(wèn)題的方法是變分推斷(Variational Inference,簡(jiǎn)稱VI)。VI旨在找到參數(shù)化數(shù)族的最優(yōu)近似分布。為此,需要遵循一個(gè)優(yōu)化過(guò)程(優(yōu)化數(shù)族里的參數(shù)),該過(guò)程需要僅由一個(gè)因子定義的目標(biāo)分布。
逼近法
給定一個(gè)數(shù)族,VI旨在搜尋該數(shù)族中某些復(fù)雜目標(biāo)概率分布的最優(yōu)近似解。具體來(lái)說(shuō),VI定義一個(gè)參數(shù)化數(shù)族分布,并通過(guò)優(yōu)化參數(shù)得到具有確定誤差測(cè)量的最接近目標(biāo)的元素。
將歸一化因子C的概率分布π定義為:
轉(zhuǎn)存失敗重新上傳取消
應(yīng)用數(shù)學(xué)術(shù)語(yǔ),設(shè)參數(shù)化數(shù)族分布為
轉(zhuǎn)存失敗重新上傳取消
對(duì)于兩個(gè)分布p和q的誤差測(cè)量E(p,q),搜尋如下最優(yōu)參數(shù)
轉(zhuǎn)存失敗重新上傳取消
如果想要在未明確標(biāo)準(zhǔn)化π的情況下解決該問(wèn)題,那么不需要復(fù)雜的計(jì)算,f_*就可以用作近似解來(lái)預(yù)估多種數(shù)值。和直接計(jì)算(如標(biāo)準(zhǔn)化、組合等)相比,基于變分推斷的優(yōu)化問(wèn)題要容易得多。
和上文中的采樣方法相比,變分推斷假設(shè)了一個(gè)參數(shù)化數(shù)族模型,這會(huì)導(dǎo)致結(jié)果有一點(diǎn)偏差和較低的方差值。總體來(lái)說(shuō),和MCMC相比,VI的準(zhǔn)確率較低,但是計(jì)算速度更快:也就是說(shuō),VI更適合數(shù)據(jù)規(guī)模較大的統(tǒng)計(jì)問(wèn)題。
轉(zhuǎn)存失敗重新上傳取消變分推斷逼近法圖示。
族分布
首先,需要設(shè)定參數(shù)化數(shù)族分布來(lái)限定搜尋最優(yōu)近似解的范圍。
數(shù)族的選擇會(huì)影響模型的結(jié)果偏差和復(fù)雜度。約束模型(簡(jiǎn)單數(shù)族)的優(yōu)化過(guò)程非常簡(jiǎn)單,但是其結(jié)果偏差較大;自由模型(復(fù)雜數(shù)族)的偏差較小但其優(yōu)化過(guò)程相對(duì)復(fù)雜。因此,在選擇數(shù)族時(shí),要找到一個(gè)相對(duì)平衡,使模型既足夠復(fù)雜,能夠保障最終近似解的準(zhǔn)確度,又足夠簡(jiǎn)單,使得優(yōu)化過(guò)程易于操作。需要注意的是,如果沒(méi)有一個(gè)數(shù)族分布近似目標(biāo)分布,那么得出的最優(yōu)近似解也會(huì)不盡人意。
平均場(chǎng)變分族(mean-field variational family)是一個(gè)概率分布數(shù)族,其中包含的隨機(jī)向量的每一部分都是獨(dú)立的。由此類數(shù)族得出的分布具有乘積密度,每個(gè)獨(dú)立部分由乘積的某個(gè)特定因子決定。因此,平均場(chǎng)變分族中的分布密度可以表示為
轉(zhuǎn)存失敗重新上傳取消
其中z為m維隨機(jī)變量。盡管符號(hào)中沒(méi)有說(shuō)明,但需要注意,所有的f_j都是參數(shù)化的。比如說(shuō),假設(shè)每個(gè)f_j都是高斯密度,具有均值和方差參數(shù),則全局密度可由一組根據(jù)所有獨(dú)立因子得出的參數(shù)來(lái)定義,優(yōu)化過(guò)程也由該參數(shù)組來(lái)完成。
轉(zhuǎn)存失敗重新上傳取消
變分推斷的數(shù)族選擇需要兼顧優(yōu)化過(guò)程的復(fù)雜度和最終近似解的準(zhǔn)確度。
Kullback-Leibler散度
確定數(shù)族之后,一個(gè)主要問(wèn)題出現(xiàn)了:怎樣在數(shù)族中找到給定目標(biāo)分布(精確定義到標(biāo)準(zhǔn)化因素)的最優(yōu)近似分布呢?很顯然,最優(yōu)近似分布取決于采用的誤差測(cè)量的性質(zhì)。但是由于需要比較的是質(zhì)量分布而不是質(zhì)量本身(質(zhì)量本身必須統(tǒng)一于概率分布),人們通常會(huì)想當(dāng)然地假設(shè)最簡(jiǎn)化問(wèn)題對(duì)歸一化因子不敏感。
那么,定義Kullback-Leibler(KL)散度,使最簡(jiǎn)化問(wèn)題對(duì)歸一化因子不敏感。設(shè)p和q為兩個(gè)分布,則KL散度可以表示為
轉(zhuǎn)存失敗重新上傳取消
從上式中可以很簡(jiǎn)單地得出
轉(zhuǎn)存失敗重新上傳取消
則對(duì)于最簡(jiǎn)化問(wèn)題,可以得到如下等式
轉(zhuǎn)存失敗重新上傳取消
由此可知,選擇KL散度作為誤差測(cè)量方法時(shí),優(yōu)化過(guò)程對(duì)乘法系數(shù)不敏感,人們無(wú)需像最初設(shè)想的那樣計(jì)算復(fù)雜的目標(biāo)分布的歸一化因子就可以在參數(shù)化數(shù)族分布中搜尋到最優(yōu)近似分布。
最后,KL散度是由交叉熵減去熵得到的,在信息理論中有很廣泛的應(yīng)用。感興趣的讀者可以進(jìn)一步了解。
優(yōu)化過(guò)程和直覺(jué)
確定參數(shù)化數(shù)族和誤差測(cè)量方法之后,需要初始化參數(shù)(隨機(jī)設(shè)定數(shù)值或根據(jù)特定方法設(shè)定數(shù)值)并進(jìn)一步優(yōu)化。在實(shí)際操作中,常見(jiàn)的幾個(gè)經(jīng)典參數(shù)優(yōu)化方法如梯度下降法和坐標(biāo)下降法都會(huì)導(dǎo)致局部最優(yōu)。
為方便讀者更好地理解優(yōu)化過(guò)程,這里將以上文中的貝葉斯推理問(wèn)題為例進(jìn)行說(shuō)明。假設(shè)后驗(yàn)分布如下
轉(zhuǎn)存失敗重新上傳取消
在這個(gè)例子中,想要利用變分推斷得到后驗(yàn)分布的近似分布,就必須解決如下優(yōu)化過(guò)程(假設(shè)參數(shù)化數(shù)族已確定,KL散度用于誤差測(cè)量)
轉(zhuǎn)存失敗重新上傳取消
從上述等式中,讀者可以更好地理解近似分布是如何分布其質(zhì)量的。第一階段是期望最大似然估計(jì)。該過(guò)程中不斷調(diào)整參數(shù),將近似分布的質(zhì)量放在能夠最佳解釋觀測(cè)值的潛變量z的數(shù)值上。第二階段是近似分布和先驗(yàn)分布間的負(fù)KL散度。負(fù)KL散度不斷調(diào)整參數(shù),使近似分布趨于先驗(yàn)分布。如此,該目標(biāo)函數(shù)就能很好地表示普通先驗(yàn)分布/似然平衡。
轉(zhuǎn)存失敗重新上傳取消變分推斷的參數(shù)優(yōu)化過(guò)程。
正在上傳…重新上傳取消
重點(diǎn)總結(jié)
· 貝葉斯推理基于著名的貝葉斯理論發(fā)展而來(lái),是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典方法。其主要的缺點(diǎn)在于,在大部分情況下,需要復(fù)雜的計(jì)算。
· 馬爾可夫鏈蒙特卡羅(MCMC)旨在根據(jù)密度估計(jì)參數(shù)。密度可以非常復(fù)雜,也可以僅由一個(gè)因子確定。
· MCMC在貝葉斯推理中主要用于從后驗(yàn)分布的“非標(biāo)準(zhǔn)化部分”中直接生成樣本,避免復(fù)雜計(jì)算。
· 變分推斷(VI)是用于搜尋最優(yōu)近似分布的方法。該方法通過(guò)優(yōu)化參數(shù),在給定數(shù)族中找到最優(yōu)近似分布。
· 由于VI優(yōu)化過(guò)程對(duì)目標(biāo)分布中的乘積常數(shù)不敏感,該方法可以用于生成僅由一個(gè)歸一化因子定義的后驗(yàn)分布的最優(yōu)近似分布。
在上文中提到,由于MCMC和VI各有特色,它們常用于不同類型的問(wèn)題中。一方面,MCMC復(fù)雜的采樣過(guò)程不會(huì)造成偏差。所以,MCMC方法在不考慮計(jì)算時(shí)間、需要得到精確結(jié)果的情況下更受青睞。另一方面,雖然VI的數(shù)族選擇過(guò)程會(huì)造成結(jié)果偏差,但它的參數(shù)優(yōu)化過(guò)程非常合理。所以,VI方法常用于需要快速計(jì)算的大規(guī)模推斷問(wèn)題中。
轉(zhuǎn)載至https://baijiahao.baidu.com/s?id=1640359045715027267&wfr=spider&for=pc
總結(jié)
以上是生活随笔為你收集整理的MCMC方法与变分推断的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: TensorFlow生成.mat文件
- 下一篇: 如何下载 Intel Integrate