字子序列中英翻译模型(五笔特征)
文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding
主要思想:將五筆作為中文字模型特征用于翻譯模型
背景:有人使用了詞子序列(sub-word)作為基本單位,用以規(guī)避典外詞匯(Out Of Vocabulary, OOV)帶來的問題,縮小了詞表,并取得了良好的效果。五筆曾在其他文章中作為特征加入到翻譯模型中,取得了優(yōu)于字模型(character-level models)的效果。將二者思想結(jié)合起來,就有了這篇文章。
特征提取:在五筆輸入法中,每個字或詞映射為不超過5個(一般是4個)符號編碼,比如“毫無理由”,逐字鍵入,應(yīng)當(dāng)映射為毫ypt無fq理gj由mh,如下圖
ypt
fq
gj
mh
五筆的鍵位分布參考
https://www.52wubi.com/wbbmcx/search.php
但文章并沒有將字的五筆輸入序列直接作為特征,而是采用了基于共現(xiàn)符號對的壓縮編碼方式BPE(Byte-pair encoding)將之再編碼。
BPE的基本思想是這樣的,對于一些序列,比如字母序列-詞,將最高頻的連續(xù)共現(xiàn)對用新符號替代。比如對具有4個序列的語料:low, lowest, newer, wider進(jìn)行替代合并的規(guī)則衍變過程為:
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示詞尾,這樣,合并的結(jié)果就是:
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)
用該算法對“毫無理由”的五筆特征(ypt, fq, gj, mh)進(jìn)行處理,得到:y@@,pt,fq,gj,mh,四個序列變成了5個序列,嗯,文章沒有解釋這兩個@是怎么來的。
翻譯模型的結(jié)構(gòu)是經(jīng)典的RNN+Attention:
評估指標(biāo)采用了機器翻譯普遍采用的BLEU。文章的方法(wubi)在測試集上取得了優(yōu)于其他方法的結(jié)果,盡管在驗證集(開發(fā)集dev)上的結(jié)果有時差于其他模型。
wubi右邊的數(shù)字代表這次結(jié)果用的BPE次數(shù)。
文章選取了不同BPE處理次數(shù)的結(jié)果進(jìn)行比較,當(dāng)處理次數(shù)(也即圖中的詞表大小)在2000-3000時,結(jié)果是比較好的:
其他:
比較了不同切詞算法對結(jié)果的影響,總的來說,以詞為單位的模型,切詞質(zhì)量影響較大,質(zhì)量越高,效果越好。
從訓(xùn)練時間上來看,全字模型時間最長,其次是字子序列(文章的模型),最快的是基于詞的模型。
總結(jié)
以上是生活随笔為你收集整理的字子序列中英翻译模型(五笔特征)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Fisco Bcos如何通过合约地址找到
- 下一篇: 【网络攻防原理与技术】第6章:特洛伊木马