论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF
文章目錄
- abstract
- 1.introduction
- 1.2 條件模型
- 2.標簽偏差問題
- 3.CRF
- 提出條件隨機場CRF
abstract
我們提出了條件隨機場,這是一個建立概率模型來分割和標記序列數據的框架。相對于隱馬爾可夫模型和隨機語法,條件隨機場在這類任務中有幾個優勢,包括能夠放松這些模型中做出的強獨立性假設。條件隨機域也避免了最大熵馬爾可夫模型(MEMMs)和其他基于有向圖模型的判別馬爾可夫模型的基本限制,這些模型可能會偏向于后繼狀態較少的狀態。我們提出了條件隨機場的迭代參數估計算法,并將得到的模型在合成和自然語言數據上與HMMs和MEMMs的性能進行了比較。
1.introduction
- 對序列進行分割和標記的需求出現在許多不同的問題中。隱馬爾可夫模型(HMMs)和隨機語法(stochastic grammars )是這類問題的常用概率模型。
- 生成模型
- 賦予成對觀測序列和標記序列一個聯合概率;
- 參數:最大化似然估計MLE
- 觀察序列:單詞–x
- 標注:詞性/ner類型–y
- 困難:表示多個相互作用的特征或觀測的長期依賴關系是不實際的
- 解決:條件模型
為了定義觀察和標記序列的聯合概率,生成模型需要枚舉所有可能的觀察序列,通常需要一個表示,其中的觀察是適合任務的原子實體,如單詞或核苷酸。特別是,表示多個相互作用的特征或觀測的長期依賴關系是不實際的,因為此類模型的推理問題是棘手的。
這種困難是將條件模型作為備選方案的主要動機之一。條件模型指定給定觀測序列的可能標簽序列的概率。因此,它不會在觀測上花費建模工作,因為在測試時觀測是固定的。此外,標簽序列的條件概率可以依賴于觀察序列的任意的、非獨立的特征,而不必強迫模型考慮這些依賴項的分布。所選的特性可能表示同一觀察的不同粒度級別的屬性(例如,英語文本中的單詞和字符),或者觀察序列的聚合屬性(例如,文本布局)。標簽之間轉換的可能性不僅取決于當前的觀察,而且取決于過去和未來的觀察(如果可能的話)。與此相反,生成模型必須對觀測結果做出非常嚴格的獨立性假設,例如給出標簽的條件獨立性,以達到可處理性。
1.2 條件模型
-
條件模型:條件模型指定給定觀測序列的可能標簽序列的概率。
- 觀測在測試時是固定的—x
- 標簽序列的條件概率可以依賴于觀察序列的任意的、非獨立的特征,而不必強迫模型考慮這些依賴項的分布
- 特性
- 可以是不同粒度的
- 也可以是聚合屬性
- 轉移:依賴于過去/未來/x
- 無嚴格的獨立性假設
-
最大熵馬爾可夫模型(MEMMs)
- 是一種條件概率序列模型,它實現了上述所有優點(McCallum et al., 2000)。
- 在MEMMs中,每個源state1都有一個指數模型,該模型以觀測特征為輸入,并輸出可能的下一個狀態的分布。
- 采用適當的迭代標度法對MEMMs的這些指數模型進行訓練
- 提高了回憶率(比HMM高一倍
-
MEMMs和其他基于下一狀態分類器的非生成有限狀態模型,如判別性馬爾科夫模型(Bottou, 1991),
-
弱點:都有一個我們稱之為標簽偏差問題的弱點:離開給定狀態的轉換只會相互競爭,而不是與模型中的所有其他轉換競爭。
在概率術語中,轉換分數是給定當前狀態和觀察序列的可能下一狀態的條件概率。這種每個國家過渡分數的標準化意味著分數質量的守恒(Bottou, 1991),因此到達一個國家的所有質量必須分配給可能的繼承國。一個觀測可以影響哪個目的地狀態得到質量,但不影響傳遞的總質量。這導致了對輸出轉換較少的狀態的偏愛。在極端情況下,具有單個傳出轉換的狀態實際上忽略了觀察結果。在這些情況下,與HMMs不同,Viterbi解碼不能根據分支點之后的觀察下調一個分支,并且具有狀態轉換結構的模型有稀疏連接的狀態鏈沒有得到適當的處理。MEMMs中的馬爾可夫假設和類似的狀態條件模型將一個狀態下的決策與未來的決策隔離開來,但這種方式與連續狀態之間的實際依賴關系并不匹配。
- CRFs
- 條件模型
- 解決標簽偏差問題
- 區別:
- MEMM使用每個狀態的指數模型來表示給定當前狀態下的下一個狀態的條件概率,而
- CRF使用單個指數模型來表示給定觀察序列的整個標簽序列的聯合概率。
- 因此,不同狀態下不同特征的權重可以相互抵消。
- 訓練:最大似然或MAP估計進行訓練
- 損失函數:是凸的,保證收斂到全局最優
- 可用于:隨機上下文無關語法
- 有限狀態模型,具有未歸一化的轉移概率
- 我們也可以認為CRF是一個有限狀態模型,具有未歸一化的轉移概率。然而,與其他一些加權有限狀態方法(LeCun et al.,
1998)不同的是,CRFs在可能的標簽上分配了一個定義良好的概率分布,通過最大似然或MAP估計進行訓練。此外,損失函數是凸的,保證收斂到全局最優。CRFs還可以很容易地推廣到隨機上下文無關語法的類似物,這將在RNA二級結構預測和自然語言處理等問題中很有用。 - 提出了該模型,描述了兩種訓練方法,并給出了收斂性證明。我們還給出了合成數據的實驗結果,表明CRFs解決了標簽偏差問題的經典版本,更重要的是,當真實數據分布具有比模型更高的階依賴性時,CRFs的性能優于HMMs和MEMMs,這在實踐中經常出現。最后,我們通過在詞性標注任務中對狀態結構相同的HMMs、MEMMs和CRFs進行評價,證實了這些結果以及條件模型的優勢。
- 本文成果
- 提出CRF(解決標簽偏差)
- 兩種訓練方式及收斂性證明
2.標簽偏差問題
-
存在此問題的:經典的概率自動機(Pa經典的概率自動機(Paz, 1971),判別馬爾科夫模型(Bottou, 1991),最大熵標記器(Ratnaparkhi, 1996), MEMMs,以及非概率序列標記和分割模型與獨立訓練的下一狀態分類器(Punyakanok &都是標簽偏差問題的潛在受害者z, 1971),判別馬爾科夫模型(Bottou, 1991),最大熵標記器(Ratnaparkhi, 1996), MEMMs,以及非概率序列標記和分割模型與獨立訓練的下一狀態分類器(Punyakanok &都是標簽偏差問題的潛在受害者
-
實例:例如,圖1表示一個簡單的有限狀態模型,用于區分單詞rib和rob。假設觀測序列為rib,在第一個時間步中,r匹配開始狀態的兩個躍遷,因此概率質量在這兩個躍遷之間的分布大致相等。接下來我們觀察i,狀態1和4都只有一個輸出躍遷。狀態1在訓練中經常看到這種情況,狀態4幾乎從未看到過這種情況;但是和狀態1一樣,狀態4別無選擇,只能把它所有的質量傳遞給它唯一的向外的躍遷,因為它不是產生觀測,而是對它進行調節。因此,只有一個外向過渡的國家實際上忽略了它們的觀察結果。更一般地說,具有低熵的狀態的下一個狀態分布很少注意到觀測結果。回到例子中,頂部路徑和底部路徑的概率是相等的,與觀察序列無關。如果兩個單詞中的一個在訓練集中稍微更常見一些,那么從起始狀態轉換出來的轉換將稍微傾向于對應的轉換,并且單詞s狀態序列將始終勝出。這一行為在第5節的實驗中得到了證明。
-
解決方案
- L’eon Bottou(1991)討論了標簽偏差問題的兩種解決方案。
- 一是改變模型的狀態轉換結構
- 在上面的例子中,我們可以折疊狀態1和狀態4,并延遲分支直到我們得到一個有區別的觀察結果。這種操作是確定性的一個特例(Mohri, 1997),但是加權有限狀態機的確定性并不總是可能的,即使有可能,也會導致組合爆炸。
- 提到的另一個解決方案是,從一個完全連接的模型開始,讓訓練過程找出一個好的結構。
- 但是,這將妨礙使用在信息提取任務中已被證明非常有價值的先前結構知識(Freitag & McCallu)
- 確的解決方案要求模型同時考慮整個狀態序列,根據相應的觀察結果,允許某些轉換比其他轉換更強烈地“投票”。
- 這意味著分數質量不會被保留,相反,個體的轉變可以“放大”或“減弱”他們所接收到的質量。
- 在上面的例子中,轉換從一開始狀態會非常弱的影響路徑的分數,盡管state1和4的過渡會更加強烈的影響,放大或衰減取決于實際的觀察,占比大的對維特比選擇貢獻大。
在相關的工作部分中,我們討論了其他的啟發式模型類,它們全局地而不是局部地考慮狀態序列。據我們所知,CRFs是唯一一個在純概率設置下進行此操作的模型類,它具有全局最大似然收斂的保證
3.CRF
其中,X是待標號數據序列上的隨機變量,Y是對應標號序列上的隨機變量。假設Y的所有分量Yi都在一個有限的字母集Y上。例如,X可能在自然語言句子上取值,Y可能在這些句子的詞性標記上取值,Y可能是一組詞性標記。隨機變量X和Y是共同分布的,但在判別框架中,我們根據成對觀察和標記序列構造了條件模型p(Y |X),而沒有顯式地對邊緣p(X)進行建模
因此,CRF是基于觀測x的全局隨機場。在本文中,我們默認圖G是固定的。以最簡單最重要的方式
- 參數估計:
- 最大似然函數的目標函數
- 最大似然函數的目標函數
- 矩陣形式
- 訓練方法
- improved iterative scaling (IIS) algorithm of Della Pietra et al. (1997)
- 問題:然而,有效地計算這些方程右邊的指數和是有問題的,因為T(x, y)是(x, y)的一個全局性質,而動態規劃將對具有潛在變化T的序列求和
- 改進
- 算法S(slack feature)
- 算法T(記錄部分T總數)
- improved iterative scaling (IIS) algorithm of Della Pietra et al. (1997)
- 前向后向算法
- α1(x)={1y=start0otherwise\alpha_1(x)=\begin{cases}1& y=start\\0& otherwise\end{cases}α1?(x)={10?y=startotherwise?
- 證明
總結
以上是生活随笔為你收集整理的论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【ACL2020】Reasoning w
- 下一篇: 为什么百度查到的ip地址和ipconfi