NER数据增强、badcase处理、数据优化
生活随笔
收集整理的這篇文章主要介紹了
NER数据增强、badcase处理、数据优化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- 如何修正NLP問題的bad case
- NLP.TM | 近期做NER的反思
一、數據增強
在NLP層面思考數據量不足(冷啟動)的問題,數據增強其實是一個還不錯的策略。
- 調整詞句順序。短句用詞維度,長句可以n-gram或者是句子級別的調換順序。
- 對NER,可以把特定槽位里面的詞替換為其他同類型的詞,當然文本分類也可以這么做。(收益大)
- 總結規則模板,直接生成數據。(收益不小)
- 復制粘貼。(數據量少時收益不明顯,數據量大以后有少量收益)
- 復制粘貼也是有技巧的,例如拿一些比較差的bad case的特色case生成糾正后放入訓練集。
注意:不要盲目地就做這個數據增強,而是在進行了一輪試驗后,經過bad case分析發現一些數據量問題或者是覆蓋率不足的問題時,再來嘗試數據增強,畢竟數據增強是會引入過擬合風險的。
二、開源數據優化
NER優化,首先采用的就是加開源數據,會有很好的泛化效果:
積累語料:
總結
以上是生活随笔為你收集整理的NER数据增强、badcase处理、数据优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CRFsuite:CRF 工具包及skl
- 下一篇: 压测—ab