CRF的优势
我們將介紹條件隨機(jī)場,一個構(gòu)建分詞和序列標(biāo)注的概率模型。條件隨機(jī)場與隱馬爾科夫模型和隨機(jī)文法相比,在獨(dú)立假設(shè)方面有自己的優(yōu)勢。條件隨機(jī)場與最大熵馬爾科夫模型(MEMM)和其它馬爾科夫判別式模型相比避免了一些有向圖方面的基本限制,就是偏向于那些比較少的后續(xù)狀態(tài)的狀態(tài)點(diǎn)。我們提出用迭代的辦法進(jìn)行參數(shù)估計,并且在合成語言和自然語言處理性能方面與HMM和MEMM做了比較。
?
1.?介紹
分段和序列標(biāo)注問題在許多的科學(xué)場景中都有應(yīng)用。隱馬爾科夫模型(HMM)最大熵馬爾科夫模型(MEMM)和隨機(jī)文法是很好理解并且在這些領(lǐng)域里面廣泛應(yīng)用的一些模型。在計算生物學(xué)中,HMM和隨機(jī)文法模型成功的匹配邏輯序列,找到進(jìn)化過程中的同一家族的生物,還有分析RNA的二級結(jié)構(gòu)。在計算語言和計算機(jī)科學(xué)中,HMM和隨機(jī)文法模型被廣泛應(yīng)用于文本和語音處理,包括主題分段,詞性標(biāo)注(POS),信息抽取和語法消岐。
HMM和隨機(jī)文法都是生成模型,分配聯(lián)合概率給成對觀察和標(biāo)注序列。參數(shù)的訓(xùn)練用來最大化訓(xùn)練樣本的最大似然。為了定義觀察序列和標(biāo)注序列的聯(lián)合概率分布,生成模型需要枚舉出所有可能的觀察序列,并需要對最基本的單位比如單詞或者核苷酸進(jìn)行表示。更特別的是,這兩個模型在特征組合和觀察值的大范圍依賴等問題表現(xiàn)得沒有吸引力。
這些問題導(dǎo)致了條件模型作為替代出現(xiàn)。條件模型在給定觀察序列的條件下指定標(biāo)注序列的概率。但是在觀察的基礎(chǔ)上模型并不做擴(kuò)展,并且在測試時間內(nèi)是確定的。更重要的是標(biāo)注序列的條件概率能夠依賴觀察值任意的特征之間的依賴關(guān)系,而不需要使模型對這些依賴做出任何反應(yīng)。對于同一觀察值被選擇的特征可能在不同粒度的水平上(比如,英文的單詞或者字母),或者觀察序列的聚合屬性(比如文本層次)。標(biāo)注序列之間的概率轉(zhuǎn)換不僅依賴目前的觀察值,而且依賴過去和將來的觀察值。比較而言,生成模型建立在觀察值之間嚴(yán)格的獨(dú)立假設(shè)基礎(chǔ)上,比如對于給定標(biāo)注的條件獨(dú)立,來達(dá)到容易處理的目的。
最大熵馬爾科夫模型(MEMM)是條件概率序列模型,解決了上述所有的缺點(diǎn)。在MEMMs中,每一個源狀態(tài),都有一個指數(shù)模型作為觀察特征的輸入,并且輸出后續(xù)可能狀態(tài)的概率分布。這些指數(shù)模型通過合適的迭代方法在最大熵框架下進(jìn)行訓(xùn)練。目前出版的實(shí)驗(yàn)結(jié)果顯示,MEMMs與HMM和FAQ相比在召回率有很大提高,在準(zhǔn)確率上大概提高兩倍。
MEMMs和其它基于后續(xù)狀態(tài)分類的非生成有限狀態(tài)模型,比如判別式馬爾科夫模型,都有一個缺點(diǎn),我們這里叫他“標(biāo)注偏執(zhí)問題”:對于從同一給定狀態(tài)出來的轉(zhuǎn)換概率僅僅與自己相互進(jìn)行比較,而不是模型中所有的概率轉(zhuǎn)化進(jìn)行比較。在概率關(guān)系中,轉(zhuǎn)化的值是在給定目前狀態(tài)和觀察序列下,是轉(zhuǎn)化到后續(xù)狀態(tài)的條件概率。每個狀態(tài)的標(biāo)準(zhǔn)化轉(zhuǎn)化值,都指的是“概率塊的保持”,所以所有的落在某個狀態(tài)上的都必須分配到后續(xù)可能的狀態(tài)上。一個觀察值能夠影響哪個目標(biāo)狀態(tài)能夠獲得概率數(shù)據(jù),但是決定不了分配多少。這就導(dǎo)致概率偏向于那些后續(xù)狀態(tài)上的那些轉(zhuǎn)換。在極端情況下,只擁有一個輸出轉(zhuǎn)換的狀態(tài),有效的忽略了觀察。在這種情況下,不像HMMs模型,Viterbi算法在基于觀察節(jié)點(diǎn)分支節(jié)點(diǎn)后不能降低權(quán)重,并且比較稀少的狀態(tài)鏈接鏈的狀態(tài)轉(zhuǎn)換模型不適合處理(Viterbi?decoding?cannot?downgrade?a?branch?based?on?observations?after?the?branch?point,?and?models?with?statetransition?structures?that?have?sparsely?connected?chains?of?states?are?not?properly?handled).?MEMMs中隱馬爾科夫模型假設(shè),和類似的狀態(tài)條件模型的當(dāng)前狀態(tài)與將來的狀態(tài)沒有關(guān)系,所以并沒有實(shí)現(xiàn)真正的連續(xù)狀態(tài)依賴。
本文將介紹條件隨機(jī)場conditional?random?fields(CRFs).一個擁有MEMMs所有優(yōu)勢的序列模型框架,并且解決了標(biāo)注偏執(zhí)問題。CRFs和MEMMs的最關(guān)鍵不同點(diǎn)是:給定當(dāng)前狀態(tài)的下一個狀態(tài)的條件概率,MEMMs使用一個指數(shù)模型,而CRF對于給定的所有觀察序列的標(biāo)注序列的聯(lián)合概率,只有一個指數(shù)模型。因此,不同特征的權(quán)重的區(qū)別被抵消。
我們也可以認(rèn)為CRF是一個未歸一化的有限狀態(tài)模型。當(dāng)然,不像其它的加權(quán)有限狀態(tài)過程,CRFs分配一個通過最大似然估計或者MAP得到的概率分布給可能的序列。此外,損失函數(shù)是凸函數(shù),所以能夠保證收斂到全局最優(yōu)。CRFs也很容易生成類似的隨機(jī)上下文無關(guān)文法,這個有點(diǎn)被應(yīng)用到RNA的二級結(jié)構(gòu)預(yù)測和自然語言處理問題。
我們通過描述兩個訓(xùn)練過程和收斂的證明來表達(dá)模型。同時我們將使用解決了經(jīng)典的標(biāo)注偏執(zhí)問題的CRFs給出合成數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,并且更有意義的是CRFs與HMMs和MEMMs相比,當(dāng)觀察數(shù)據(jù)的分布具有長距離依賴的情況下有著更好的表現(xiàn),在實(shí)踐中更是如此。最后,我們通過與HMMs和MEMMs還有使用單一狀態(tài)結(jié)構(gòu)進(jìn)行詞性標(biāo)注的CRF進(jìn)行比較結(jié)果將確定CRFs模型的優(yōu)點(diǎn)。
CRF
優(yōu)點(diǎn):
(1)CRF沒有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件,因而可以容納任意的上下文信息。特征設(shè)計靈活(與ME一樣)(與HMM比較)
(2)由于CRF計算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,它還客服了最大熵馬爾科夫模型標(biāo)記偏執(zhí)缺點(diǎn)。(與MEMM)
(3)CRF是在個頂需要標(biāo)記的觀察序列的條件下,計算整個標(biāo)記序列的聯(lián)合概率分布,而不是在給定的當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。(ME比較)
缺點(diǎn): 訓(xùn)練代價大,復(fù)雜度高
總結(jié)