基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...
基于
Python
自然語言處理工具包在語料庫研究中的運用
劉
旭
【摘
要】
摘要:國內當前以語料庫為基礎的研究,在研究工具方面,多以
AntConc
、
PowerGREP
為主,使用
Python
語言
NLTK
包進行數據處理分析
的研究較少,限于軟件自身設計,不能靈活地對研究方法提供支持。在研究中
使用
Python
語言的
NLTK
處理包,使數據有了統一標準,避免了各類文字處
理轉換的麻煩,同時也彌補了
Range
等工具在句法分析、圖形繪制、正則表達
式檢索等方面的缺憾。針對語料庫研究的中文本分詞、詞形歸并、文本檢索統
計等主要環節,簡要介紹
Python
語言的
NLTK
自然語言處理包在語料庫研究
中的運用,并以古騰堡語料庫中的簡·奧斯丁小說
《艾瑪》為例,說明如何運用
該自然語言處理包對語料進行加工處理。
【期刊名稱】
昆明冶金高等專科學校學報
【年
(
卷
),
期】
2015(000)005
【總頁數】
6
【關鍵詞】
Python
;
NLTK
工具包;語料庫研究
不論是語料庫的建設,還是語料庫研究的數據處理,都需要對語料庫進行加工
與處理。基于計算機編程語言
Python
的
NLTK
工具包是一個可用于對自然語
言進行清潔、賦碼、檢索、語法及語義分析等處理的工具包,與常見的
Range
,
PowerGREP
,
AntConc
等語料庫軟件相比,
NLTK
工具包不僅具備上述工具中
常見的檢索功能,還具備文本清潔、詞形歸并、詞性賦碼、語法分析等多種功
能。其中,檢索功能可用于詞匯搭配研究、類聯接研究;文本清潔、詞形歸并
可用于語料庫建庫對數據的處理。該處理包的特色在于能讓研究者在一個環境
總結
以上是生活随笔為你收集整理的基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python读取文件名存到list_批量
- 下一篇: python怎么封装方法然后调用_我现在