中文情感分析语料库
中文情感分析語料庫
http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93
中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的搜集的。
?
?
?
數據集1:情感挖掘的酒店評論語料
URL:http://www.nlpir.org/?action-viewnews-itemid-77
說明:譚松波收集整理了一個較大規模的酒店評論語料。語料規模為10000篇。語料從攜程網上自動采集,并經過整理而成。為了方便起見,語料被整理成4個子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡語料,正負類各1000篇。
4.ChnSentiCorp-Htl-unba-10000: 非平衡語料,正類為7000篇。
?
?
?
數據集2:2012年CCF自然語言處理與中文計算會議:中文微博情感分析測評數據
URL:http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html
說明:數據來自騰訊微博 1。評測數據全集包括 20 個話題,每個話題采集大約 1000
條微博,共約 20000 條微博。數據采用xml格式,已經預先切分好句子。每條句子的所有標注信息都包含在<sentence>元素的屬性中。其中opinionated表示是否觀點句,polarity表示句子情感傾向。
?
?
數據集3:中文情感挖掘語料-ChnSentiCorp
URL :http://www.datatang.com/data/14614
說明:語料庫涉及3個領域:酒店、電腦(筆記本)與書籍
去重后語料:
1.ChnSentiCorp-Htl-del-4000: 平衡語料,正負類各2000篇。
2.ChnSentiCorp-NB-del-4000: 平衡語料,正負類各2000篇。
3.ChnSentiCorp-BK-del-4000: 平衡語料,正負類各2000篇。
?
?
?
數據集4:豆瓣網影評情感測試語料
URL:http://www.datatang.com/data/13539
說明:影評來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標注。語料至527頁。每頁20條短評。 共計11323條評論。數據格式:HTML
?
?
數據集5:SemEval-2016
URL:http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools
說明:移動手機,數碼產品評論數據,分為訓練數據和測試數據
? | 訓練數據 | 測試數據 | ||
評論文檔數 | 句子級數 | 評論文檔數 | 句子級數 | |
移動手機 | 140 | 6330 | 140 | 5784 |
數碼產品 | 60 | 3191 | 60 | 2556 |
?
總結
- 上一篇: 理解CMS GC日志
- 下一篇: 频繁项集挖掘之apriori和fp-gr