2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词
注意:本篇博文標紅字部分為一處筆誤的改正。非常感謝獵兔網?開發工程師 羅剛指出錯誤。歡迎大家光臨我的博客指正各種思維不周,本人不拒絕嚴格的批評,只要能指出具體錯誤,和改進方案
采用這種方法首先要弄懂1.什么是二元語法模型:二元語法模型也就是一階馬爾科夫鏈,更通俗的說法是:一個詞出現與否,僅有它前面一個詞有關。舉個例子
:P(成|結合)*P(結合)>P(合成|結) *P(結)表示 “結合成”分詞為 “結合? 成”的概率要大于分詞為“結 合成”的概率。這也是和一元語法模型的不同之處。對于一元語法模型“結合成”的分詞結合要看 P(結)*P(合)*P(成), P(結合)*P(成),P(結)*P(合成)誰大。對比一元語法模型和二元語法模型,我們能夠看出,二元語法模型優于一元語法模型,因為它考慮了上下文相關性,同理,三元語法模型優于二元語法模型。
2. 什么是Viterbi算法。Veterbi算法是動態規劃算法中的一種,常用在隱式馬爾科夫模型求最優路徑中。
我們首先要闡明動態規劃算法的結構:
子結構最優,子問題交疊。也就是說一:1個問題的最優解是由最優的子問題的最優解構成;2求解此問題最優解的方法過程,對于求解子問題也適用,也就是可遞歸性。
如果大家想對一元語法模型,和veterbi算法,有更深入的了解,可以參考以下兩篇博文:一元語法模型,Viterbi算法
?未完待續
轉載于:https://www.cnblogs.com/finallyliuyu/archive/2010/05/11/1732156.html
總結
以上是生活随笔為你收集整理的2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android自定义录制视频
- 下一篇: JAVA提取纯文本_从常见文档中提取纯文