维基百科镜像处理
維基百科語料資源豐富,而維基百科又提供數據庫下載,是語料資源來源的良好途徑。
1. 中文維基數據下載
下載dump:https://dumps.wikimedia.org/zhwiki/latest/,維基數據主要包含以下幾部分
| zhwiki-latest-pages-articles.xml.bz2 | 詞條正文 |
| zhwiki-latest-redirect.sql | 詞條重定向(同義詞) |
| zhwiki-latest-pagelinks.sql | 詞條頁面內容外鏈 |
| zhwiki-latest-page.sql | 詞條標題及摘要 |
| zhwiki-latest-categorylinks.sql | 詞條開放分類鏈接 |
本文處理的數據是:zhwiki-latest-pages-articles.xml.bz2
2. 中文維基數據解析
下載后需要對該xml文件的壓縮包作處理,所幸gensim的WikiCorpus已經預置了部分處理。幾行關鍵的python代碼如下:
input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或數據庫
總結
- 上一篇: java命令--jmap命令使用(查找内
- 下一篇: Android入门(12)| 数据持久化