自然语言处理-错字识别(基于Python)kenlm、pycorrector
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理-错字识别(基于Python)kenlm、pycorrector
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載請注明出處:https://blog.csdn.net/HHTNAN
n元分詞法參見:https://blog.csdn.net/HHTNAN/article/details/62046652
關于kenlm統計語言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本糾錯劃分
中文文本糾錯任務,常見錯誤類型包括:
- 諧音字詞,如 配副眼睛-配副眼鏡
- 混淆音字詞,如 流浪織女-牛郎織女
- 字詞順序顛倒,如 伍迪艾倫-艾倫伍迪
- 字詞補全,如愛有天意-假如愛有天意
- 形似字錯誤,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音縮寫,如 sz-深圳
- 語法錯誤,如想象難以-難以想象
當然,針對不同業務場景,這些問題并不一定全部存在,比如輸入法中需要處理前四種,搜索引擎需要處理所有類型,語音識別后文本糾錯只需要處理前兩種, 其中’形似字錯誤’主要針對五筆或者筆畫手寫輸入等。
簡單總結了一下中文別字錯誤類型:
別字: 感帽,隨然,傳然,嘔土
人名,地名錯誤:哈蜜(正:哈密)
拼音錯誤:咳數(ke shu)—> ke sou,
知識性錯誤:廣州黃浦(埔)
總結
以上是生活随笔為你收集整理的自然语言处理-错字识别(基于Python)kenlm、pycorrector的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [css] 你知道什么是面向对象的cs
- 下一篇: 工作284:理解绑定逻辑