输入法之核心词典构建
生活随笔
收集整理的這篇文章主要介紹了
输入法之核心词典构建
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
拼音輸入法輸出的候選分成兩個部分,系統(tǒng)詞以及短句(智能組詞),智能組詞是通過model以及解碼弄出來的,興許再說。 系統(tǒng)詞就是那些經常使用的詞(詞組)收錄到詞典中,用戶的輸入和詞典中的詞match時,直接吐出來,而不須要解碼獲得。
系統(tǒng)詞以及相應的rank(score)對輸入法的體驗非常大,畢竟大多數用戶還是繼續(xù)短詞輸入。
系統(tǒng)詞包括幾個部分: 1.基礎詞 2.高頻短串 3.細胞詞庫
當中基礎詞的比較復雜,也沒有統(tǒng)一的方法。
一般的做法是:
1.對訓練語料進行分詞,然后取top 20-50w的詞作為基礎詞,假設有知識庫等分類的詞典,能夠依照類別。比方電商等能夠引入一些詞 2.獲取第三方的核心詞典。將大家都有的,或者基于一定的規(guī)范。選擇出來。作為核心詞典。這個非常重要,可是基本上高頻的都能被cover住,而中低頻的就看產品需求了。
針對高頻短串。比方“去哪里”等等,沒有必要通過智能組詞來解決。智能組詞畢竟是有錯誤率的。 同一時候。加到核心詞庫里面后。在展現上比較方便控制。 畢竟智能組詞一版智能選一個最好的。而系統(tǒng)詞能夠有多個。“去哪里”去那里“
轉載于:https://www.cnblogs.com/brucemengbm/p/6920989.html
總結
以上是生活随笔為你收集整理的输入法之核心词典构建的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 控制器view生命周期
- 下一篇: 【实践】简洁大方的summernote