當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ChineseDiachronicCorpus项目，大规模中文历时语料库

發布時間：2024/7/5 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了 ChineseDiachronicCorpus项目，大规模中文历时语料库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

ChineseDiachronicCorpus

ChineseDiachronicCorpus，中文歷時語料庫，橫跨六十余年，包括騰訊歷時新聞2009-2016，人民日報歷時語料1946-2003，參考消息歷時語料1957-2002。基于歷時流通語料庫，可用于歷時語言變化計算、語言監測、社會文化變遷研究提供基礎性的語料支持。

為什么中文開放數據集如此之難

有的時候我在想，chineseldc基本停滯了，后面除了gluedata benchmark，國內數據集開源為什么這么難？我想了一想，不當當是侵權的問題，有很多原因【不一定對】：
1）研究導向。數據集屬于很底層、初級的工作，頭部研究注意力放在深度學習上（近年來有好轉，比如ccl近2年的best paper 都有側重），基礎數據沒人做；
2）版權保護。雖然國家沒有出臺官方的抓取即違法的政策，但這是大趨勢，這個也制約了數據的發布和公開。
3）研究保護。國內開源生態不樂觀，發出去，就等著被抄，花費大量人力、物力、財力標注的語料，可能發布出去就直接被使用，形成競爭壁壘。
4）缺乏引導。近年來有意識的在搞平臺，比如百度搞千言，民間搞glue benchmark，但最怕做成擺貨架。目前開放了很多的基礎評測資源，大大多都是針對英文的【沒辦法，要國際化，要文章】。
6）缺乏統一的資源開放標準。資源開放標準的制定、推行，是一個自頂向下的行為，制定可行的標準，是今后資源管理、規范化，有效、公正地評測資源任務的重點。

得語言者得天下，得語言資源者，分得天下。中文語言資源，不應該是這幅模樣。

項目的由來

語言是人類重要的交際工具，同時也是社會的鏡子，語言記錄并反映了社會，對語言記錄進行挖掘、計算，可以從各個層面對社會進行解讀。例如，基于語料庫進行詞語考察，以反映單個詞語在不同時間周期中的使用及變動情況。以語料為載體，挖掘出屬于某個特定時間周期的社會特點，例如年度關鍵詞、年度人物、年度流行語；對詞語進行文化計算，如顏色計算、性別計算、觀點計算等，以考察整個社會對某一事物、看法的演變。當前，開源可用的中文歷時語料庫較少。代表性的有北京語言大學國家語言資源監測與研究平面媒體中心DCC動態流通語料庫，其對國內數十家報紙媒體進行監測，也有中國傳媒大學的歷時語料庫可以使用。

當前，隨著網絡技術的發展以及采集技術的相對成熟，構建起歷時語料庫變得越來越容易，這就使得向外界共享歷時語料庫變得更為便利且必要。本項目，旨在通過公開收集的方式，從網絡媒體和平面媒體兩個角度出發，形成騰訊新聞、人民日報、參考消息三大歷時語料庫，以供社會開放使用。

項目的用途

那么，基于這個語料庫，能夠做什么呢？總結了下，至少可以從詞語考察、語義計算、熱度計算、文化計算、媒體對比、語法研究等六個方面開展工作。

用途名稱技術手段應用場景

詞語考察	分詞、詞頻統計	通用詞表等編寫
語義計算	共現詞、MI搭配、依存搭配	搭配等語義詞典編寫
熱度計算	流通度計算、術語提取	流行語等發布
文化計算	顏色計算、性別計算	文化變遷
媒體對比	媒體差異計算	傳播學研究
語法研究	語法模式檢索	語法教材與詞典編寫

項目的獲取

對于如何獲取數據，下表是對數據集的介紹，需要使用的可以開放下載使用，因涉及版權問題，暫只放數據來源。免責聲明：該項目由公開渠道收集而成，不可商用，僅可用于科學研究，若有侵權，可聯系刪除。

數據名稱時間跨度數據大小數據來源

騰訊新聞	2009-2016	5GB	https://auto.qq.com/l/201104/scrollnews_15.htm
人民日報	1946-2003	3.44GB	http://www.laoziliao.net/rmrb/
參考消息	1957-2002	1.1GB	http://www.laoziliao.net/ckxx/

關于作者

劉煥勇，中國科學院軟件研究所，兼任數據地平線科技算法總監，專注金融、情報兩大領域，從事事件抽取、事件演化、情感分析、事理（知識）圖譜、常識推理、語言資源構建與應用等研發工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作，可聯系我： 1、我的github項目介紹：https://liuhuanyong.github.io
2、我的csdn技術博客：https://blog.csdn.net/lhy2014
3、我的聯系方式: 劉煥勇，中國科學院軟件研究所，lhy_in_blcu@126.com.
4、我的共享知識庫項目：劉煥勇，數據地平線，http://www.openkg.cn/organization/datahorizon.
5、我的工業項目：劉煥勇，數據地平線，大規模實時事理學習系統：https://xueji.datahorizon.cn.
6、我的工業項目：劉煥勇，數據地平線，面向事件和語義的自然語言處理工具箱：https://nlp.datahorizon.cn

總結

以上是生活随笔為你收集整理的ChineseDiachronicCorpus项目，大规模中文历时语料库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：设计模式之观察者模式在Listview中
下一篇：【手撕算法】字符串