ChineseDiachronicCorpus项目,大规模中文历时语料库
ChineseDiachronicCorpus
ChineseDiachronicCorpus,中文歷時語料庫,橫跨六十余年,包括騰訊歷時新聞2009-2016,人民日報歷時語料1946-2003,參考消息歷時語料1957-2002。基于歷時流通語料庫,可用于歷時語言變化計算、語言監測、社會文化變遷研究提供基礎性的語料支持。
為什么中文開放數據集如此之難
有的時候我在想,chineseldc基本停滯了,后面除了gluedata benchmark,國內數據集開源為什么這么難?我想了一想,不當當是侵權的問題,有很多原因【不一定對】:
1)研究導向。數據集屬于很底層、初級的工作,頭部研究注意力放在深度學習上(近年來有好轉,比如ccl近2年的best paper 都有側重),基礎數據沒人做;
2)版權保護。雖然國家沒有出臺官方的抓取即違法的政策,但這是大趨勢,這個也制約了數據的發布和公開。
3)研究保護。國內開源生態不樂觀,發出去,就等著被抄,花費大量人力、物力、財力標注的語料,可能發布出去就直接被使用,形成競爭壁壘。
4)缺乏引導。近年來有意識的在搞平臺,比如百度搞千言,民間搞glue benchmark,但最怕做成擺貨架。 目前開放了很多的基礎評測資源,大大多都是針對英文的【沒辦法,要國際化,要文章】。
6)缺乏統一的資源開放標準。資源開放標準的制定、推行,是一個自頂向下的行為,制定可行的標準,是今后資源管理、規范化,有效、公正 地評測資源任務的重點。
得語言者得天下,得語言資源者,分得天下。中文語言資源,不應該是這幅模樣。
項目的由來
語言是人類重要的交際工具,同時也是社會的鏡子,語言記錄并反映了社會,對語言記錄進行挖掘、計算,可以從各個層面對社會進行解讀。例如,基于語料庫進行詞語考察,以反映單個詞語在不同時間周期中的使用及變動情況。 以語料為載體,挖掘出屬于某個特定時間周期的社會特點,例如年度關鍵詞、年度人物、年度流行語;對詞語進行文化計算,如顏色計算、性別計算、觀點計算等,以考察整個社會對某一事物、看法的演變。 當前,開源可用的中文歷時語料庫較少。代表性的有北京語言大學國家語言資源監測與研究平面媒體中心DCC動態流通語料庫,其對國內數十家報紙媒體進行監測,也有中國傳媒大學的歷時語料庫可以使用。
當前,隨著網絡技術的發展以及采集技術的相對成熟,構建起歷時語料庫變得越來越容易,這就使得向外界共享歷時語料庫變得更為便利且必要。 本項目,旨在通過公開收集的方式,從網絡媒體和平面媒體兩個角度出發,形成騰訊新聞、人民日報、參考消息三大歷時語料庫,以供社會開放使用。
項目的用途
那么,基于這個語料庫,能夠做什么呢?總結了下,至少可以從詞語考察、語義計算、熱度計算、文化計算、媒體對比、語法研究等六個方面開展工作。
| 詞語考察 | 分詞、詞頻統計 | 通用詞表等編寫 |
| 語義計算 | 共現詞、MI搭配、依存搭配 | 搭配等語義詞典編寫 |
| 熱度計算 | 流通度計算、術語提取 | 流行語等發布 |
| 文化計算 | 顏色計算、性別計算 | 文化變遷 |
| 媒體對比 | 媒體差異計算 | 傳播學研究 |
| 語法研究 | 語法模式檢索 | 語法教材與詞典編寫 |
項目的獲取
對于如何獲取數據,下表是對數據集的介紹,需要使用的可以開放下載使用,因涉及版權問題,暫只放數據來源。免責聲明:該項目由公開渠道收集而成,不可商用,僅可用于科學研究,若有侵權,可聯系刪除。
| 騰訊新聞 | 2009-2016 | 5GB | https://auto.qq.com/l/201104/scrollnews_15.htm |
| 人民日報 | 1946-2003 | 3.44GB | http://www.laoziliao.net/rmrb/ |
| 參考消息 | 1957-2002 | 1.1GB | http://www.laoziliao.net/ckxx/ |
關于作者
劉煥勇,中國科學院軟件研究所,兼任數據地平線科技算法總監,專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我: 1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數據地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,數據地平線,大規模實時事理學習系統:https://xueji.datahorizon.cn.
6、我的工業項目:劉煥勇,數據地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
總結
以上是生活随笔為你收集整理的ChineseDiachronicCorpus项目,大规模中文历时语料库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设计模式之观察者模式在Listview中
- 下一篇: 【手撕算法】字符串