深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用
前言
隨著深度學(xué)習(xí)的普及,有越來越多的研究應(yīng)用新模型到中文分詞上,讓人直呼“手快有,手慢無”。不過這些神經(jīng)網(wǎng)絡(luò)方法的真實(shí)水平如何?具體數(shù)值多少?以Sighan05中的PKU數(shù)據(jù)集為例,真像一些論文所言,一個LSTM-CRF就有96.5%嗎?或者像某些工業(yè)界人士那樣,動輒“基于深度學(xué)習(xí)的98%準(zhǔn)確率”,“99% 的分詞成功率”嗎?
如果數(shù)字真的這么好看,那中文分詞這個課題幾乎沒有研究意義了。更何況,中文分詞標(biāo)準(zhǔn)難以統(tǒng)一,任何語料庫都存在內(nèi)部標(biāo)注一致性(inter-annotator agreement)的問題。一些著名的語料庫(如CTB)設(shè)有質(zhì)量檢測機(jī)制,雖然沒有公布具體內(nèi)部標(biāo)注一致性數(shù)值,但Shen 2016抽樣重新標(biāo)注校驗(yàn)的CTB5在分詞上的一致性才達(dá)到99.10%;可據(jù)此推測CTB的內(nèi)部一致性低于99%。而其他著名語料庫(如PKU、MSR等)則既沒有公布一致性數(shù)值,也沒有人做相關(guān)試驗(yàn)。國家語委語料庫則簡單地說了句“標(biāo)注是指分詞和詞類標(biāo)注,已經(jīng)經(jīng)過3次人工校對,準(zhǔn)確率大于>98%”;綜合學(xué)術(shù)界窮極特征工程與語言學(xué)資源(詞典)的分詞器不超過98%的分值這一事實(shí)來保守估計(jì),這些語料庫的一致性不會超過98%。而PKU分值幾乎沒有超過96%的,所以任何聲稱在PKU上拿到97%以上所謂“準(zhǔn)確率”的說法,可信度都不高。
本文收集分析一些可信的state of art數(shù)據(jù),嘗試還原當(dāng)前(2017年左右)中文分詞的真實(shí)面貌。聯(lián)想到最近的造假
總結(jié)
以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习核心技术精讲100篇(十七)-多
- 下一篇: 用Tableau制作3D旋转地球