《数学之美》——第三章 个人笔记
? ?
第三章? ? 統(tǒng)計語言模型
1 用數(shù)學(xué)的方法描述語言規(guī)律
普遍描述:假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,(這里應(yīng)該是特征列表)這里n是句子的長度。現(xiàn)在,我們想知道S在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)熵上所說的S的概率P(S)。
馬爾可夫假設(shè)后,
?
2 延伸閱讀:統(tǒng)計語言模型的工程訣竅
2.1? ? 高階語言模型
當(dāng)前詞wi的概率值取決于前面N-1個詞,上面的假設(shè)被稱為N-1階馬爾可夫假設(shè),對應(yīng)的語言模型稱為N元模型。N=2就是前面的二元模型。N=1的一元模型實際上是一個上下文無關(guān)的模型,N=3在實際中應(yīng)用最多。
?
N為什么一般取值都很小?
①首先,N元模型的大小(空間復(fù)雜度)幾乎是N的指數(shù)函數(shù),即0(丨V丨**N),這里丨V丨是一種語言詞典的詞匯量,一般在幾萬到幾十萬個。
②而使用N元模型的速度(時間復(fù)雜度)也幾乎是一個指數(shù)函數(shù),0(丨V丨**N-1)。因此,N不能很大。當(dāng)N從1到2,再從2到3,效果顯著;從3到4,提升就不是很顯著了,資源的耗費缺相反。Google的羅塞塔是4元。
?
2.2? ? 模型的訓(xùn)練、零概率問題和平滑問題
在數(shù)理統(tǒng)計中,我們之所以敢用對采樣數(shù)據(jù)進(jìn)行觀察的結(jié)果來預(yù)測概率,是因為有大數(shù)定理,要求有足夠的觀測值(增加數(shù)據(jù)量真的是一個真理)。
針對零概率:
?
假定r比較小時,統(tǒng)計就不可靠,因此在計算那些出現(xiàn)r次的詞的概率時,要實用一個更小一點的次數(shù),是dr,
dr = (r+1)* Nr+1/Nr ?顯然 ∑dr*Nr = N.
文中有個Zipf定律(Zipf's Law):出現(xiàn)一次的詞的數(shù)量比出現(xiàn)兩次的多,出現(xiàn)兩次的比出現(xiàn)三次的多。
出現(xiàn)r次的詞的數(shù)量Nr和r的關(guān)系:
這里就解決了未出現(xiàn)的詞,給其賦了一個很小的非零值。
文章中還有二元組和三元組的模型概率公式。卡茨退避法(Katz backoff)
還有一個叫刪除差值的方法:用低階語言模型和高階模型進(jìn)行線性插值來達(dá)到平滑的目的。
公式如下:三個λ均為正數(shù)且加和為1。
2.3? ? 語料的選取問題
訓(xùn)練數(shù)據(jù)通常越多越好,數(shù)據(jù)的預(yù)處理很重要。
訓(xùn)練語料和模型應(yīng)用的領(lǐng)域要切合,這樣模型的效果才能體現(xiàn)。
?
轉(zhuǎn)載于:https://www.cnblogs.com/NEWzyz/p/8933003.html
總結(jié)
以上是生活随笔為你收集整理的《数学之美》——第三章 个人笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 关于更新系统后CocoaPods不能使用
- 下一篇: mybatis的逆向工程
