《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型
視頻列表:
38 markov模型(一)
39 markov模型(二)
40 markov模型(三)
41 markov模型(四)
42 markov模型(五)
38 markov模型(一)
第六章 Markov模型
Markov模型概況
- Markov模型是一種統(tǒng)計模型,廣泛地應(yīng)用在語音識別,詞性自動標(biāo)注,音字轉(zhuǎn)換,概率文法等各個自然語言處理的應(yīng)用領(lǐng)域。
- Markov(1856~1922),蘇聯(lián)數(shù)學(xué)家。切比雪夫的學(xué)生。在概率論、數(shù)論、函數(shù)逼近論和微分方程等方面卓有成就。
- 經(jīng)過長期發(fā)展,尤其是在語音識別中的成功應(yīng)用,使它成為一種通用的統(tǒng)計工具。
- 語音識別、音字轉(zhuǎn)換、分詞、詞性標(biāo)注、命名實體識別、句法分析、……
Markov假設(shè)
設(shè)X=(X1,X2...,Xt)X=(X_{1},X_{2}...,X_{t})X=(X1?,X2?...,Xt?)是隨機變量序列,其中每個隨機變量的取值在有限集S=(S1,S2...,St)S=(S_{1},S_{2}...,S_{t})S=(S1?,S2?...,St?),稱為狀態(tài)空間,Markov特征是:
- 有限歷史假設(shè)(Limited History (Horizon,Context)):
P(Xt+1=sk∣X1,X2,...,Xt)=P(Xt+1=sk∣Xt)P(X_{t+1}=s_{k}|X_{1},X_{2},...,X_{t})=P(X_{t+1}=s_{k}|X_{t})P(Xt+1?=sk?∣X1?,X2?,...,Xt?)=P(Xt+1?=sk?∣Xt?) - 時間不變性假設(shè)(Time Invariant)(馬爾可夫過程的穩(wěn)定性假設(shè)):這種條件依賴,不隨時間的改變而改變
如果X具有這些特征,那么這個隨機變量序列稱為一個馬爾可夫過程(鏈)
Markov模型的形式化表示
一個馬爾可夫模型是一個三元組(S,π,A)(S, \pi , A)(S,π,A),其中SSS是狀態(tài)的集合,π\(zhòng)piπ是初始狀態(tài)的概率, AAA是狀態(tài)間的轉(zhuǎn)移概率
Markov模型的圖形表示
- 狀態(tài)集合 S=(S1,S2...,St)S=(S_{1},S_{2}...,S_{t})S=(S1?,S2?...,St?)
- 概率分布P(Xi∣Xi?1)P(X_{i}|X_{i-1})P(Xi?∣Xi?1?)
- 由狀態(tài)iii到狀態(tài)jjj之間的轉(zhuǎn)移弧上有條件轉(zhuǎn)移概率:
SSS={*,t,e,a,o}
π\(zhòng)piπ=(1,0,0,0,0)
A=
隱Markov模型
- 各個狀態(tài)(或者狀態(tài)轉(zhuǎn)移弧)都有一個輸出,但是狀態(tài)是不可見的
- 最簡單的情形:不同的狀態(tài)只能有不同的輸出
- 增加一點靈活性:不同的狀態(tài),可以輸出相同的輸出
- 再增加一點靈活性:輸出在狀態(tài)轉(zhuǎn)移中進(jìn)行
- 最大的靈活性:在狀態(tài)轉(zhuǎn)移中以特定的概率分布輸出
39 markov模型(二)
HMM的形式化定義
HMM是一個五元組(S,K,π,A,B)(S, K, \pi, A, B)(S,K,π,A,B),其中 SSS是狀態(tài)的集合,KKK是輸出字符的集合, π\(zhòng)piπ是初始狀態(tài)的概率,AAA是狀態(tài)轉(zhuǎn)移的概率。BBB是狀態(tài)轉(zhuǎn)移時輸出字符的概率。
馬爾可夫過程程序
隱馬爾科夫模型的三個基本問題
- 問題1:給定一個模型μ=(S,K,π,A,B)\mu =(S,K,\pi,A,B)μ=(S,K,π,A,B),如何高效地計算某一輸出字符序列的概率P(O∣μ)P(O|\mu)P(O∣μ)
- 問題2:給定一個輸出字符序列O,和一個模型μ\muμ,如何確定產(chǎn)生這一序列概率最大的狀態(tài)序列
- 問題3:給定一個輸出字符的序列O,如何調(diào)整模型的參數(shù)使得產(chǎn)生這一序列的概率最大
網(wǎng)格(Trellis)
問題1:評價(Evaluation)
算法復(fù)雜度太高,需要O(2TnT)O(2Tn^{T})O(2TnT)
40 markov模型(三)
向后過程
問題2 解碼(decoding)
- Viterbi algorithm
問題3 參數(shù)估計
41 markov模型(四)
基于HMM的詞性標(biāo)注
詞性標(biāo)注(Part-of-Speech tagging)
回顧:
作用:句法分析的前期步驟
難點:兼類詞
基于規(guī)則的詞性標(biāo)注
基于轉(zhuǎn)換的錯誤驅(qū)動的詞性標(biāo)注
基于HMM的詞性標(biāo)注
42 markov模型(五)
#### 基于HMM的詞性標(biāo)注 
音字轉(zhuǎn)換
規(guī)則與統(tǒng)計相結(jié)合
我們需要的音字轉(zhuǎn)換結(jié)果是:
“一枝美麗的小花”
采用規(guī)則的方法
- 短語結(jié)合規(guī)則:
A+NP->NP
A+“的”+NP->NP
M+“枝”+NP->NP - 短語匹配算法
- 從詞網(wǎng)格到元素網(wǎng)格
- 其他問題
系統(tǒng)掛接問題
萬能掛接
Windows支持
Mac OS, Linux, Windows CE, Symbian OS,……
致謝
關(guān)毅老師,現(xiàn)為哈工大計算機學(xué)院語言技術(shù)中心教授,博士生導(dǎo)師。通過認(rèn)真學(xué)習(xí)了《自然語言處理(哈工大 關(guān)毅 64集視頻)》1(來自互聯(lián)網(wǎng))的課程,受益良多,在此感謝關(guān)毅老師的辛勤工作!為進(jìn)一步深入理解課程內(nèi)容,對部分內(nèi)容進(jìn)行了延伸學(xué)習(xí)2 3 456,在此分享,期待對大家有所幫助,歡迎加我微信(驗證:NLP),一起學(xué)習(xí)討論,不足之處,歡迎指正。
參考文獻(xiàn)
《自然語言處理(哈工大 關(guān)毅 64集視頻)》(來自互聯(lián)網(wǎng)) ??
王曉龍、關(guān)毅 《計算機自然語言處理》 清華大學(xué)出版社 2005年 ??
哈工大語言技術(shù)平臺云官網(wǎng):http://ltp.ai/ ??
Steven Bird,Natural Language Processing with Python,2015 ??
Claude E. Shannon. “Prediction and Entropy of Printed English”, Bell System Technical Journal 30:50-64. 195 ??
An Empirical Study of Smoothing Techniques for Language Modeling, Stanley F. Chen ??
總結(jié)
以上是生活随笔為你收集整理的《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《自然语言处理(哈工大 关毅 64集视频
- 下一篇: 网页标签