Good-Turning Smothing 学习
使用場景
語言模型平滑化等
公式
沒有出現過的單詞出現的概率
P m l e = 0 P_{mle}=0 Pmle?=0 (mle的方式)
P g t = N 1 N P_{gt}=\frac{N_1}{N} Pgt?=NN1?? (good-turning的方式)
出現過的單詞出現的概率
P m l e = c N P_{mle}=\frac{c}{N} Pmle?=Nc?(mle的方式)
P g t = ( c + 1 ) N c + 1 N c × N P_{gt}=\frac{(c+1)N_{c+1}}{N_c\times N} Pgt?=Nc?×N(c+1)Nc+1??(good-turning的方式:網絡上的公式分母沒有乘以N,這里的解釋是:分母不乘以N計算的是預計出現的次數,分母乘以N后就是在全部次數N中出現的概率)
舉例說明
例:假設在摸球,已經摸了22個球了。其中10個球是白色,5個是黑色,3個球是灰色,2個球是褐色,1個是紅色,1個是綠色,1個是黃色。
需要先計算出出現的次數:
N = 22 N=22 N=22 (一共摸了22次)
N 10 = 1 N_{10}=1 N10?=1 (有一個顏色的球出現了10次)
N 5 = 1 N_5=1 N5?=1 (有一個顏色的球出現了5次)
N 3 = 1 N_3=1 N3?=1 (有一個顏色的球出現了3次)
N 2 = 1 N_2=1 N2?=1 (有一個顏色的球出現了2次)
N 1 = 3 N_1=3 N1?=3 (有三個顏色的球出現了1次)
問題1.求摸到紫色球的概率:
mle的方式只考慮過去,沒有出現的顏色概率是0 P m l e ( 紫 色 ) = 0 P_{mle}(紫色)=0 Pmle?(紫色)=0
P g t ( 新 的 顏 色 ) = P g t ( 紫 色 ) = N 1 N = 3 22 P_{gt}(新的顏色)=P_{gt}(紫色)=\frac{N_1}{N}=\frac{3}{22} Pgt?(新的顏色)=Pgt?(紫色)=NN1??=223?
問題2. 摸到紅球的概率:
P m l e ( 紅 色 ) = 1 22 P_{mle}(紅色)=\frac{1}{22} Pmle?(紅色)=221?
P g t ( 紅 色 ) = ( c + 1 ) N c + 1 N c × N = ( 1 + 1 ) N 1 + 1 N 1 × N = 2 N 2 N 1 × N = 2 × 1 3 × 22 = 1 33 P_{gt}(紅色)=\frac{(c+1)N_{c+1}}{N_c\times N}=\frac{(1+1)N_{1+1}}{N_1\times N}=\frac{2N_{2}}{N_1\times N}=\frac{2\times1}{3\times 22}=\frac{1}{33} Pgt?(紅色)=Nc?×N(c+1)Nc+1??=N1?×N(1+1)N1+1??=N1?×N2N2??=3×222×1?=331?
可能遇到的問題
舉個例子,在日常使用中,如預計文章中單詞出現的頻率時。
比如有2個單詞在文章中出現了115次,但是不一定有單詞恰好出現了116次。而通過gt的方式預計115次單詞出現個數時候是需要116次單詞的數據的。這時就沒有辦法計算了。
計算已經出現115次的某個單詞出現個數應使用公式:
P g t = ( c + 1 ) N c + 1 N c = ( 115 + 1 ) N 116 N 115 P_{gt}=\frac{(c+1)N_{c+1}}{N_c}=\frac{(115+1)N_{116}}{N_{115}} Pgt?=Nc?(c+1)Nc+1??=N115?(115+1)N116??
可以通過一些其他方式補上缺失的數據,比如機器學習算法。
ps
內容來自日常學習中的一些教程,網上的資料等。個人也還是初學者,如有問題期望指正!
總結
以上是生活随笔為你收集整理的Good-Turning Smothing 学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全球猎头公司排名 2006
- 下一篇: 见人搭话:聊别人擅长或感兴趣的话题