《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结
本節(jié)書摘來異步社區(qū)《NLTK基礎(chǔ)教程——用NLTK和Python庫構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用》一書中的第2章,第2.11節(jié),作者:Nitin Hardeniya,更多章節(jié)內(nèi)容可以訪問云棲社區(qū)“異步社區(qū)”公眾號查看。
2.11 小結(jié)
在這一章中,我們討論了所有與文本內(nèi)容相關(guān)的數(shù)據(jù)挖掘與數(shù)據(jù)再加工話題。我們介紹了一些最常見的數(shù)據(jù)源,并用相關(guān)的Python包來對它們進(jìn)行解析。其中,我們深入地探討了標(biāo)識化處理,從非常基本的字符串方法到自定義的基于正則表達(dá)式的標(biāo)識器均有所涉及。
另外,我們還討論了詞干提取和詞形還原。在這過程中,我們介紹了各種可用的詞干提取器類型及它們各自的優(yōu)缺點。我們還討論了停用詞移除的過程,這個操作的重要性,何時該執(zhí)行停用詞移除以及何時不需要執(zhí)行它。我們還簡單地討論了如何清除文本中的罕見詞,以及執(zhí)行文本清理的重要性——這里包含了停用詞和罕見詞,我們會根據(jù)它們的頻率分布來重點清除。最后,我們還提到了拼寫糾錯。我們在文本挖掘和文本清理上可以做的事情是無限的。每一種語料庫都是一個新的挑戰(zhàn),并且都存在要除去某種新噪音的需要。我們需要花一點時間來了解一下自己的語料庫需要執(zhí)行什么類型的預(yù)處理操作,以及應(yīng)該忽略掉什么東西。
在下一章中,我們將會看到一些與NLP相關(guān)的預(yù)處理,例如詞性標(biāo)注、斷句處理以及NER等。我們會在下一章的某些開放性問題的提示和答案中作出解釋。
總結(jié)
以上是生活随笔為你收集整理的《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习系列|从白富美相亲看特征预处理与
- 下一篇: 《Adobe Illustrator C