自然语言处理笔记6-哈工大 关毅
目錄
文章目錄
- 目錄
- 前言
- Markov模型1
- Markov模型2
- Markov 模型3
- Markov模型4
- Markov模型(5)
前言
碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。
Markov模型1
設X=(X1,X2,...Xt)是隨機變量序列,其中每個隨機變量的取值在有限集S=s1,S2,稱為狀態空間,時間不變性假設X=(X_1,X_2,...X_t)是隨機變量序列,其中每個隨機變量的取值在有限集S={s_1,S_2},稱為狀態空間,時間不變性假設X=(X1?,X2?,...Xt?)是隨機變量序列,其中每個隨機變量的取值在有限集S=s1?,S2?,稱為狀態空間,時間不變性假設
N階Markov模型,只需修改狀態空間的定義S’={X}。定義新的變量Xibelongtos′X_i belong to s'Xi?belongtos′
使得Xt=(Si?1,Si)X_t=(S_{i-1},S_i)Xt?=(Si?1?,Si?)并且約定:
P(Xi∣Xi?1)=P((Si?1,Si)∣(Si?2,Si?3))P(X_i|X_{i-1})=P((S_{i-1},S_i)|(S_{i-2},S_{i-3}))P(Xi?∣Xi?1?)=P((Si?1?,Si?)∣(Si?2?,Si?3?))
Markov模型的形式化表示,一個馬爾可夫模型是一個三元組(S,π,A)(S,\pi,A)(S,π,A),其中S是狀態的集合,π\piπ是初始狀態的概率,A是狀態間的轉移概率。
發射字符依賴于當前狀態,不同狀態,有不同輸出。
HMM:不同狀態可以有相同輸出,輸出在狀態轉移中進行。
Markov模型2
HMM模型:
最大的靈活性在狀態轉移中以特定概率輸出。
##HMM模型:
HMM是一個五元組(S,k,pi,a,b),其中s是狀態的集合,k是輸出字符的集合,pi是初始狀態的概率,a是狀態轉移的概率。b是狀態轉移時輸出字符的概率。
t:=1
以概率pip_ipi?在狀態SiS_iSi?開始(ie,X1=i)
forever do
move from state Si to state Sj with
probability Aij(i,e,..Xt+1=j)A_{ij}(i,e,..{X_{t+1}=j})Aij?(i,e,..Xt+1?=j)
Emit observation symbol Ot=k
with probability b
t:=t+1
end
##HMM的基本問題
給定一個輸出的字符序列。如何調整模型的參數使得產生這一序列的概率最大,IBM Watson醫生。 隱馬模型的基本問題:給定一個模型M=(S,k,pi,a,b),如何高效地計算某一輸出字符序列的概率P(O|u)。
給定一個輸出字符序列O和一個模型u,如何確定產生這一序列概率最大的狀態序列
(X1,x2)
詞網格分類,音字轉換。網格cell states。
問題1:評價(evaluation)
給定一個模型u=(s,k,pi,a,b)如何高效地計算某一輸出字符序列的概率P(O|u)。
O=(o1,o2,…,or),u=(a,b,pi)
計算P(O|u)。
給定詞網格最優路徑
方案一:直觀方法。
X1–>o1
P(o|x,u)=bx1oz=∑P(O∣X,U)?P(X∣u)\sum P(O|X,U)*P(X|u)∑P(O∣X,U)?P(X∣u)
動態規劃,遞推求解。
αi(t)=P(O1,..Oi∣Xt)\alpha_i(t)=P(O1,..Oi|X_t)αi?(t)=P(O1,..Oi∣Xt?)
方案2:向前過程
=∑i=1αi(t)?bjαijbj?αt+1\sum_{i=1}\alpha_i(t)*b_j\alpha_{ij}b_j*\alpha_{t+1}i=1∑?αi?(t)?bj?αij?bj??αt+1?
Markov 模型3
向前過程
RRGB
動態規劃法
向后過程概述:
KaTeX parse error: Expected 'EOF', got '\lmd' at position 5: P(O|\?l?m?d?)=\sum_{1<j<N}p…
算法效率與前算法相同。
用途:參數訓練問題的一個重要組成部分。
##解碼
確定產生概率最大的狀態
delta為在t時刻到達狀態j,輸出字符Ot時,輸出前面t-1
個字符的最可能路徑的概率。
delta_j(t)=max_{xi…xt+1}P(x1…xt+1,O1…Ot-1,Xt=1,Ot)
delta+{t+1}(j)=max_deltat(j)aijbij(ot+1)
viterbi algorithm:
初始化:
delta(i)=piibi(Oi)
phi(i)=0
遞歸:
最優路徑 qt=phi_t=1(Qt+1)
把連乘變成加。
參數統計
argmax_uP(O|u)
Markov模型4
設計更新計算更新值。basic思想。
設定模型的初始值,U-old。
基于U_old計算輸出U_new和O的概率。
如果P(o|u_new)-P(O|u_old)<某個閾值
停止
否則,U_old<-U_new返回step2.
Baum-Welch算法。
向前向后算法。
基于HMM的詞性標注。
詞性標注:
作用句法分析的前期步驟
難點:兼類詞。
詞性標準應用:
Tbest=argmaxPr(T|s)=argmaxP(S|t)P(T)
如何計算P(S|t)和P(T)
簡化:
詞wi的出現,僅僅依賴于它的詞性標記,標記ti的出現僅僅條件依賴于它前面的標記t_i-1
公式轉化 計算P(S|T)和P(T)
Pr(S|t)Pr(t)=\timr P(Wi|ti)P(Ti|ti-1)
使用最大相似度估計:
P(Ti|ti-1)=c(ti,tj)/c(ti)
音字轉換
發射字符:狀態是什么?
發射字是什么?
不是什么?轉化為生產力的學習。
Markov模型(5)
HMM評價,解碼編碼問題
ch6尾聲,音字轉換
T=argmax(v|s)
語言單位間的遠距離約束
遞歸模型
規則與統計相結合
采用規則的方法:
短語結合規則:
A+NP->NP
A+‘的’+NP->NP
M+‘枝’+NP->NP
短語匹配算法。
從詞網格到元素網格
顆粒度疏,工作量太大。
規則匹配強度不夠。
做了幾個宣傳詞,要有自己的優勢項。
還做了系統掛接問題。
總結
以上是生活随笔為你收集整理的自然语言处理笔记6-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【OpenCV】透视变换 仿射变换
- 下一篇: thinkphp自动生成二维码