文本纠错
一、問題
中文文本糾錯任務,常見錯誤類型包括:
- 諧音字詞,如 配副眼睛-配副眼鏡
- 混淆音字詞,如 流浪織女-牛郎織女
- 字詞順序顛倒,如 伍迪艾倫-艾倫伍迪
- 字詞補全,如 愛有天意-假如愛有天意
- 形似字錯誤,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音縮寫,如 sz-深圳
- 語法錯誤,如 想象難以-難以想象
當然,針對不同業務場景,這些問題并不一定全部存在。
比如
1、輸入法中需要處理前四種,
2、搜索引擎需要處理所有類型,
3、語音識別后文本糾錯只需要處理前兩種,
4、其中'形似字錯誤'主要針對五筆或者筆畫手寫輸入等。
二、解決思路
1、規則的解決思路
2、深度模型的解決思路
?
三、模型
- kenlm:kenlm統計語言模型工具
- rnn_attention模型:參考Stanford University的nlc模型,該模型是參加2014英文文本糾錯比賽并取得第一名的方法
- rnn_crf模型:參考阿里巴巴2016參賽中文語法糾錯比賽CGED2018并取得第一名的方法(整理中)
- seq2seq_attention模型:在seq2seq模型加上attention機制,對于長文本效果更好,模型更容易收斂,但容易過擬合
- transformer模型:全attention的結構代替了lstm用于解決sequence to sequence問題,語義特征提取效果更好
- bert模型:中文fine-tuned模型,使用MASK特征糾正錯字
- conv_seq2seq模型:基于Facebook出品的fairseq,北京語言大學團隊改進ConvS2S模型用于中文糾錯,在NLPCC-2018的中文語法糾錯比賽中,是唯一使用單模型并取得第三名的成績
總結
- 上一篇: 精通JavaScript攻击框架:Att
- 下一篇: 30个Python极简代码,10分钟ge