ANN:ML方法与概率图模型
???????? 產(chǎn)生式模型和判別式模型
假定輸入x,類別標(biāo)簽y
—??產(chǎn)生式模型(生成模型)估計(jì)聯(lián)合概率P(x,y),因可以根據(jù)聯(lián)合概率來生成樣本:HMMs —?判別式模型(判別模型)估計(jì)條件概率P(y|x),因?yàn)闆]有x的知識,無法生成樣本,只能判斷分類:SVMs,CRF,MEM一個舉例:
? (1,0), (1,0), (2,0), (2, 1)
產(chǎn)生式模型:
p(x,y):
P(1, 0) = 1/2, P(1, 1) = 0 , P(2, 0) = 1/4, P(2, 1) = 1/4. 判別式模型:P(y|x):
P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
o和s分別代表觀察序列和標(biāo)記序列 —產(chǎn)生式模型: 構(gòu)建o和s的聯(lián)合分布p(s,o); —判別式模型: 構(gòu)建o和s的條件分布p(s|o);
—產(chǎn)生式模型中,觀察序列作為模型的一部分;
??? 判別式模型中,觀察序列只作為條件,因此可以針對觀察序列設(shè)計(jì)靈活的特征。 ???產(chǎn)生式模型:無窮樣本==》概率密度模型=產(chǎn)生模型==》預(yù)測
????判別式模型:有限樣本==》判別函數(shù)=預(yù)測模型???????? ==》預(yù)測
???一般認(rèn)為判別型模型要好于生成型模型,因?yàn)樗侵苯痈鶕?jù)數(shù)據(jù)對概率建模,而生成型模型還要先求兩個難度相當(dāng)?shù)母怕省?br />
概率圖模型:
概率圖模型,用圖的形式表示概率分布,—基于概率論中貝葉斯規(guī)則建立起來的,解決不確定性問題,可以用于人工智能、數(shù)據(jù)挖掘、 語言處理文本分類等領(lǐng)域,圖模型是表示隨機(jī)變量之間的關(guān)系的圖,圖中的節(jié)點(diǎn)表示隨機(jī)變量,缺少邊表示條件獨(dú)立假設(shè)。因此可以對聯(lián)合分布提供一種緊致表示。
根據(jù)邊的方向性,有兩種主要的圖模型: ?無向圖:亦稱馬爾科夫隨機(jī)場(MarkovRandom Fields,MRF’s)或馬爾科夫網(wǎng)絡(luò)(MarkovNetworks) ?有向圖:亦稱貝葉斯網(wǎng)絡(luò)(Bayesian??????? Networks)?????????????????? 或信念網(wǎng)絡(luò)(Belief Networks, BN’s). ?還有混合圖模型,有時稱為鏈圖(chaingraphs)
—我們不妨拿種地來打個比方。其中有兩個概念:位置(site),相空間(phasespace)。“位置”好比是一畝畝農(nóng)田;“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼,這就好比給隨機(jī)場的每個“位置”,賦予相空間里不同的值。所以,俗氣點(diǎn)說,隨機(jī)場就是在哪塊地里種什么莊稼的事情。?
簡單地講,隨機(jī)場可以看成是一組隨機(jī)變量的集合(這組隨機(jī)變量對應(yīng)同一個樣本空間)。當(dāng)給每一個位置中按照某種分布隨機(jī)賦予相空間的一個值之后,其全體就叫做隨機(jī)場。 當(dāng)然,這些隨機(jī)變量之間可能有依賴關(guān)系,一般來說,也只有當(dāng)這些變量之間有依賴關(guān)系的時候,我們將其單獨(dú)拿出來看成一個隨機(jī)場才有實(shí)際意義。
馬爾科夫性質(zhì): 體現(xiàn)了一個思想:離當(dāng)前因素比較遙遠(yuǎn)(這個遙遠(yuǎn)要根據(jù)具體情況自己定義)的因素對當(dāng)前因素的性質(zhì)影響不大。 ??????? 條件隨機(jī)場模型是一種無向圖模型,它是在給定需要標(biāo)記的觀察序列的條件下,計(jì)算整個標(biāo)記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。即給定觀察序列O,求最佳序列S。
二、CRF:
?????? 條件隨機(jī)場模型是由Lafferty在2001年提出的一種典型的判別式模型。它在觀測序列的基礎(chǔ)上對目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問題。條件隨機(jī)場模型既具有判別式模型的優(yōu)點(diǎn),又具有產(chǎn)生式模型考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標(biāo)記偏置問題。
? ? ? ??條件隨機(jī)場理論(CRFs)可以用于序列標(biāo)記、數(shù)據(jù)分割、組塊分析等自然語言處理任務(wù)中。在中文分詞、中文人名識別、歧義消解等漢語自然語言處理任務(wù)中都有應(yīng)用,表現(xiàn)很好。目前基于CRFs的主要系統(tǒng)實(shí)現(xiàn)有CRF,FlexCRF,CRF++。缺點(diǎn):訓(xùn)練代價(jià)大、復(fù)雜度高
?
—PreKnowledge: —產(chǎn)生式模型和判別式模型(Generativemodel vs. Discriminative model) —概率圖模型 —隱馬爾科夫模型 —最大熵模型三、HMM、MEMM、CRF區(qū)別和聯(lián)系:
原文鏈接:http://1.guzili.sinaapp.com/?p=133??????? 隱馬爾可夫模型(Hidden Markov Model,HMM),最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)以及條件隨機(jī)場(Conditional Random Field,CRF)是序列標(biāo)注中最常用也是最基本的三個模型。HMM首先出現(xiàn),MEMM其次,CRF最后。
?????? 三個算法主要思想如下:
- HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計(jì)共現(xiàn)概率。
- MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計(jì)時統(tǒng)計(jì)的是條件概率,但MEMM容易陷入局部最優(yōu),是因?yàn)镸EMM只在局部做歸一化。
- RF模型中,統(tǒng)計(jì)了全局概率,在 做歸一化時,考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置(label bias)的問題。
舉個例子,對于一個標(biāo)注任務(wù),“我愛北京天安門“,
?????????????????????????????????標(biāo)注為” s s??b??e b c? e”
- 對于HMM的話,其判斷這個標(biāo)注成立的概率為 P= P(s轉(zhuǎn)移到s)*P(‘我’表現(xiàn)為s)* P(s轉(zhuǎn)移到b)*P(‘愛’表現(xiàn)為s)* …*P().訓(xùn)練時,要統(tǒng)計(jì)狀態(tài)轉(zhuǎn)移概率矩陣和表現(xiàn)矩 陣。
- 對于MEMM的話,其判斷這個標(biāo)注成立的概率為 P= P(s 轉(zhuǎn)移到s|’我’表現(xiàn)為s)*P(‘我’表現(xiàn)為s)* P(s轉(zhuǎn)移到b|’愛’表現(xiàn)為s)*P(‘愛’表現(xiàn)為s)*..訓(xùn)練時,要統(tǒng)計(jì)條件狀態(tài)轉(zhuǎn)移概率矩陣和表現(xiàn)矩陣。
- 對于CRF的話,其判斷這個標(biāo)注成立的概率為 P=?F(s轉(zhuǎn)移到s,’我’表現(xiàn)為s)….F為一個函數(shù),是在全局范圍統(tǒng)計(jì)歸一化的概率而不是像MEMM在局部統(tǒng)計(jì)歸一化的概率。
當(dāng)前,最后出現(xiàn)的CRF在多項(xiàng)任務(wù)上達(dá)到了統(tǒng)治級的表現(xiàn),所以如果重頭搞應(yīng)用的話,大家可以首選CRF。本質(zhì)上,CRF有以下三個優(yōu)點(diǎn):
- CRF沒有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件,因而可以容納任意的上下文信息。????????? ? ?? 特征設(shè)計(jì)靈活(與ME一樣) ? ? ? ??————與HMM比較
- 同時,由于CRF計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,它還克服了最大熵馬爾可夫模型標(biāo)記偏置(Label-bias)的缺點(diǎn)。 --————與MEMM比較
- CRF是在給定需要標(biāo)記的觀察序列的條件下,計(jì)算整個標(biāo)記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。
凡事都有兩面,正由于這些優(yōu)點(diǎn),CRF需要訓(xùn)練的參數(shù)更多,與MEMM和HMM相比,它存在訓(xùn)練代價(jià)大、復(fù)雜度高的缺點(diǎn)。
四、標(biāo)記偏置問題:
??????
那么,究竟什么是標(biāo)記偏置問題呢?還是看個實(shí)際例子吧!
???? 基于上圖各邊上的轉(zhuǎn)移概率簡單進(jìn)行計(jì)算可得每條路徑的概率如下:
- 路徑1-1-1-1的概率: 0.4*0.45*0.5 =0.09
- 路徑2-2-2-2的概率:??? 0.2*0.3*0.3?? =0.018
- 路徑1-2-1-2的概率:??? 0.6*0.2*0.5?? =0.06
- 路徑1-1-2-2的概率:??? 0.4*0.55*0.3=0.066
??????? 由此,可知最優(yōu)路徑為1-1-1-1. 然而,仔細(xì)觀察可發(fā)現(xiàn)上圖中stat1 中每個結(jié)點(diǎn)都傾向于轉(zhuǎn)移到stat2,這明顯是和直覺不相符的。(?因?yàn)闋顟B(tài)2可以轉(zhuǎn)換的狀態(tài)比狀態(tài)1要多,從而使轉(zhuǎn)移概率降低;即MEMM傾向于選擇擁有更少轉(zhuǎn)移的狀態(tài)) 這就是所謂的標(biāo)注偏置問題。實(shí)際上,造成這一問題的根本原因是每個節(jié)點(diǎn)分支數(shù)不同,由于MEMM的局部歸一化特性,使得轉(zhuǎn)出概率的分布不均衡,最終導(dǎo)致狀態(tài)的轉(zhuǎn)移存在不公平的情況。
??????? 怎么解決這種問題呢?先介紹一個最直觀的最粗暴的解決方法,由于我們知道是因?yàn)楦怕史植疾痪鶎?dǎo)致的,可以簡單把每個節(jié)點(diǎn)轉(zhuǎn)出概率和為1的限制去掉,比如我們簡單把上圖中stat2中每個結(jié)點(diǎn)出發(fā)的邊的概率值×10,重新計(jì)算每條路徑的概率如下:
- 路徑1-1-1-1的概率: 0.4*0.45*0.5=0.09
- 路徑2-2-2-2的概率: 2*3*3=18
- 路徑1-2-1-2的概率: 0.6*2*5=6
- 路徑1-1-2-2的概率: 0.4*0.55*3=0.66
由此可得最優(yōu)路徑是2-2-2-2, 這就解決了MEMM的標(biāo)記偏置問題。當(dāng)然這個方法太粗暴了,CRF則是利用一種全局的優(yōu)化思路來定向解決的。
至此,這三個算法的區(qū)別和聯(lián)系基本算講清楚了。
下面從機(jī)器學(xué)習(xí)中的概率圖角度來看如何區(qū)分三者的區(qū)別呢?下面這三個圖非常清晰地展示了之間的區(qū)別和聯(lián)系。
上圖很好詮釋了HMM模型中存在兩個假設(shè):
?????? 一是輸出觀察值之間嚴(yán)格獨(dú)立,二是狀態(tài)的轉(zhuǎn)移過程中當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān)(一階馬爾可夫模型)。
上圖說明MEMM模型克服了觀察值之間嚴(yán)格獨(dú)立產(chǎn)生的問題,但是由于狀態(tài)之間的假設(shè)理論,使得該模型存在標(biāo)注偏置問題。
上圖顯示CRF模型解決了標(biāo)注偏置問題,去除了HMM中兩個不合理的假設(shè)。當(dāng)然,模型相應(yīng)得也變復(fù)雜了。
最后,如果要想仔細(xì)研究下這三個算法發(fā)展歷程的話,請接著閱讀以下部分。
??????? HMM模型將標(biāo)注任務(wù)抽象成馬爾可夫鏈,一階馬爾可夫鏈?zhǔn)结槍ο噜彉?biāo)注的關(guān)系進(jìn)行建模,其中每個標(biāo)記對應(yīng)一個概率函數(shù)。
??????? HMM是一種產(chǎn)生式模型,定義了聯(lián)合概率分布p(x,y) ,其中x和y分別表示觀察序列和相對應(yīng)的標(biāo)注序列的隨機(jī)變量。為了能夠定義這種聯(lián)合概率分布,產(chǎn)生式模型需要枚舉出所有可能的觀察序列,這在實(shí)際運(yùn)算過程中很困難,所以我們可以將觀察序列的元素看做是彼此孤立的個體, 即假設(shè)每個元素彼此獨(dú)立(和naive bayes類似),任何時刻的觀察結(jié)果只依賴于該時刻的狀態(tài)。
??????? HMM模型的這個假設(shè)前提在比較小的數(shù)據(jù)集(也不全是吧)上是合適的,但實(shí)際上在大量真實(shí)語料中觀察序列更多的是以一種多重的交互特征形式表現(xiàn)的,觀察元素之間廣泛存在長程相關(guān)性。例如,在命名實(shí)體識別任務(wù)中,由于實(shí)體本身結(jié)構(gòu)所具有的復(fù)雜性,利用簡單的特征函數(shù)往往無法涵蓋所有特性,這時HMM的假設(shè)前提使得它無法使用復(fù)雜特征(它無法使用多于 一個標(biāo)記的特征。),這時HMM的弊端就顯現(xiàn)無疑了。突破這一瓶頸的方法就是引入最大熵模型。下面,我們簡單介紹下這個模型,大家會發(fā)現(xiàn)ME和HMM具有天然的雜交優(yōu)勢,不結(jié)合天理不容哈,呵呵(不合體天理不容 %!)。
??????? 我們知道最大熵模型可以使用任意的復(fù)雜相關(guān)特征,在性能上也超過了Bayes分類器。最大熵模型的優(yōu)點(diǎn):首先,最大熵統(tǒng)計(jì)模型獲得的是所有滿足約束條件的模型中信息熵極大的模型; 其次,最大熵統(tǒng)計(jì)模型可以靈活地設(shè)置約束條件,通過約束條件的多少可以調(diào)節(jié)模型對未知數(shù)據(jù)的適應(yīng)度和對已知數(shù)據(jù)的擬合程度; 再次,它還能自然地解決了統(tǒng)計(jì)模型中參數(shù)平滑的問題。最大熵模型的不足:首先,最大熵統(tǒng)計(jì)模型中二值化特征只是記錄特征的出現(xiàn)是否,而文本分類需要知道特征的強(qiáng)度,因此,它在分類方法中不是最優(yōu)的; 其次,由于算法收斂的速度較慢,所以導(dǎo)致最大熵統(tǒng)計(jì)模型它的計(jì)算代價(jià)較大,時空開銷大; 再次,數(shù)據(jù)稀疏問題比較嚴(yán)重。最致命的是,作為一種分類器模型,最大熵對每個詞都是單獨(dú)進(jìn)行分類的,標(biāo)記之間的關(guān)系無法得到充分利用。然而,具有馬爾可夫鏈的HMM模型可以建立標(biāo)記之間的馬爾可夫關(guān)聯(lián)性,這是最大熵模型所沒有的。
??????? 好了,現(xiàn)在是時候隆重介紹雜交后的最大熵馬爾科夫模型(MEMM)。
??????? 簡單來說,MEMM把HMM模型和maximum-entropy模型的優(yōu)點(diǎn)集合成一個? 統(tǒng)一的產(chǎn)生式模型 ,這個模型允許狀態(tài)轉(zhuǎn)移概率依賴于序列中彼此之間非獨(dú)立的特征上,從而將上下文信息引入到模型的學(xué)習(xí)和識別過程中,達(dá)到了提高識別的準(zhǔn)召率的效果。有實(shí)驗(yàn)證明,MEMM在序列標(biāo)注任務(wù)上表現(xiàn)的比 HMM和無狀態(tài)的最大熵模型要好得多。然而,如上面所述,MEMM并不完美,它存在明顯的標(biāo)記偏置問題。于是CMU的教授John Lafferty提出了更先進(jìn)的CRF模型。
??????? CRF模型具有以下特點(diǎn):(1)CRF在給定了觀察序列的情況下,對整個的序列的聯(lián)合概率有一個統(tǒng)一的指數(shù)模型,它具備一個比較吸引人的特性就是其損失函數(shù)的凸面性;(2)CRF具有很強(qiáng)的推理能力,并且能夠使用復(fù)雜、有重疊性和非獨(dú)立的特征進(jìn)行訓(xùn)練和推理,能夠充分地利用上下文信息作為 特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富;(3)CRF解決了MEMM中的標(biāo)記偏置問題,這也正是CRF與MEMM的本質(zhì)區(qū)別所在—-最大熵模型在每個狀態(tài)都有一個概率模型,在每個狀態(tài)轉(zhuǎn)移時都要進(jìn)行歸一化。如果某個狀態(tài)只有一個后續(xù) 狀態(tài),那么該狀態(tài)到后續(xù)狀態(tài)的跳轉(zhuǎn)概率即為1。這樣,不管輸入為任何內(nèi)容,它都向該后續(xù)狀態(tài)跳轉(zhuǎn)。而CRFs是在所有的狀態(tài)上建立一個統(tǒng)一的概率模型,這 樣在進(jìn)行歸一化時,即使某個狀態(tài)只有一個后續(xù)狀態(tài),它到該后續(xù)狀態(tài)的跳轉(zhuǎn)概率也不會為1。
??????? 最后,我們簡單匯總下實(shí)際應(yīng)用中大放異彩的CRF的優(yōu)缺點(diǎn)來結(jié)束本文。
CRF模型的優(yōu)點(diǎn):首先,CRF模型在結(jié)合多種特征方面的存在優(yōu)勢;其次,它避免了標(biāo)記偏置問題;再次,CRF的性能更好,對特征的融合能力更強(qiáng)。
CRF 模型的不足:首先,特征的選擇和優(yōu)化是影響結(jié)果的關(guān)鍵因素,特征選擇問題的好與壞,直接決定了系統(tǒng)性能的高低;其次,訓(xùn)練模型的時間比ME更長,且獲得的模型很大,在一般的PC機(jī)上可能無法運(yùn)行。
參考資料:
?????? 【1】http://ssli.ee.washington.edu/people/duh/projects/CRFintro.pdf
???????【2】http://blog.csdn.net/zhoubl668/article/details/7787690
???????【3】http://blog.csdn.net/caohao2008/article/details/4242308
???????【4】http://www.cnblogs.com/549294286/archive/2013/06/06/3121761.html
???????【5】www.cs.cmu.edu/~epxing/Class/10801-07/lectures/note7.pdf?
總結(jié)
以上是生活随笔為你收集整理的ANN:ML方法与概率图模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 龙之谷红莲迷宫怎么进
- 下一篇: 这个路由能让手机有线上网-手机有线连接路