當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP Chinese Corpus：大规模中文自然语言处理语料

發布時間：2024/10/8 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP Chinese Corpus：大规模中文自然语言处理语料小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文的信息無處不在，但如果想要獲得大量的中文語料，卻是不太容易，有時甚至非常困難。在 2019 年初這個時點上，普通的從業者、研究人員或學生，并沒有一個比較好的渠道獲得極大量的中文語料。

筆者想要訓練一個中文的詞向量，在百度和 Github 上搜索了好久，收獲卻很少：要么語料的量級太小，要么數據過于成舊，或需要的處理太復雜。不知道你是否也遇到了這樣的問題？

我們這個項目，就是為了解決這一問題貢獻微薄之力。

項目地址：

https://github.com/brightmart/nlp_chinese_corpus

維基百科json版 (wiki2019zh)

104 萬個詞條（1,043,224 條；原始文件大小 1.6G，壓縮文件 519M；數據更新時間：2019.2.7）

下載鏈接：

https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip

可能的用途：可以做為通用中文語料，做預訓練的語料或構建詞向量，也可以用于構建知識問答。?

結構

{"id":<id>,"url":<url>,"title":<title>,"text":<text>}?其中，title是詞條的標題，text是正文；通過"\n\n"換行。

例子?

{"id":?"53",?"url":?"https://zh.wikipedia.org/wiki?curid=53",?"title":?"經濟學",?"text":?"經濟學\n\n經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。\n\n經濟學注重的是研究經濟行為者在一個經濟體系下的行為，以及他們彼此之間的互動。在現代，經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為，包括個體的行為者（例如個人、公司、買家或賣家）以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題，包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。..."}

效果

經濟學
經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。
經濟學注重的是研究經濟行為者在一個經濟體系下的行為，以及他們彼此之間的互動。在現代，經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為，包括個體的行為者（例如個人、公司、買家或賣家）以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題，包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
其他的對照還包括了實證經濟學（研究「是什么」）以及規范經濟學（研究「應該是什么」）、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學（研究理性-個體-均衡等）與非主流經濟學（研究體制-歷史-社會結構等）。
經濟學的分析也被用在其他各種領域上，主要領域包括了商業、金融、和政府等，但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。到了21世紀初，經濟學在社會科學領域各方面不斷擴張影響力，使得有些學者諷刺地稱其為「經濟學帝國主義」。
在現代對于經濟學的定義有數種說法，其中有許多說法因為發展自不同的領域或理論而有截然不同的定義，蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」，他說：
讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策里獨立出來，并定義其為對于財富之生產、分配、和消費的學問。另一方面，托馬斯·卡萊爾則諷刺的稱經濟學為「憂郁的科學」（Dismal?science），不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度：
.....

新聞語料json版 (news2016zh)

250 萬篇新聞（原始數據 9G，壓縮文件 3.6G；新聞內容跨度：2014-2016 年)

下載鏈接（密碼: film）：

https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg

數據描述

包含了 250 萬篇新聞。新聞來源涵蓋了 6.3 萬個媒體，含標題、關鍵詞、描述、正文。

數據集劃分：數據去重并分成三個部分。訓練集：243 萬；驗證集：7.7 萬；測試集，數萬，不提供下載。

可能的用途：可以做為【通用中文語料】，訓練【詞向量】或做為【預訓練】的語料；也可以用于訓練【標題生成】模型，或訓練【關鍵詞生成】模型（選關鍵詞內容不同于標題的數據）；亦可以通過新聞渠道區分出新聞的類型。

結構

{'news_id':?<news_id>,'title':<title>,'content':<content>,'source':?<source>,'time':<time>,'keywords':?<keywords>,'desc':?<desc>,?'desc':?<desc>}

其中，title是新聞標題，content是正文，keywords是關鍵詞，desc是描述，source是新聞的來源，time是發布時間

例子

{"news_id":?"610130831",?"keywords":?"導游，門票","title":?"故宮淡季門票40元?“黑導游”賣外地客140元",?"desc":?"近日有網友微博爆料稱，故宮午門廣場售票處出現“黑導游”，專門向外地游客出售高價門票。昨日，記者實地探訪故宮，發現“黑導游”確實存在。窗口出售",?"source":?"新華網",?"time":?"03-22?12:00",?"content":?"近日有網友微博爆料稱，故宮午門廣場售票處出現“黑導游”，專門向外地游客出售高價門票。昨日，記者實地探訪故宮，發現“黑導游”確實存在。窗口出售40元的門票，被“黑導游”加價出售，最高加到140元。故宮方面表示，請游客務必通過正規渠道購買門票，避免上當受騙遭受損失。目前單筆門票購買流程不過幾秒鐘，耐心排隊購票也不會等待太長時間。....再反彈”的態勢，打擊黑導游需要游客配合，通過正規渠道購買門票。"}

百科類問答json版 (baike2018qa)

150 萬個問答（原始數據 1G 多，壓縮文件 663M；數據更新時間：2018 年)

下載鏈接（密碼: fu45）：

https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA

數據描述

含有 150 萬個問題和答案，每個問題屬于一個類別。總共有 492 個類別，其中頻率達到或超過 10 次的類別有 434 個。

數據集劃分：數據去重并分成三個部分。訓練集：142.5 萬；驗證集：4.5 萬；測試集，數萬，不提供下載。

可能的用途：可以做為通用中文語料，訓練詞向量或做為預訓練的語料；也可以用于構建百科類問答；其中類別信息比較有用，可以用于做監督訓練，從而構建更好句子表示的模型、句子相似性任務等。

結構

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中，category是問題的類型，title是問題的標題，desc是問題的描述，可以為空或與標題內容一致。

例子

{"qid":?"qid_2540946131115409959",?"category":?"生活知識",?"title":?"冬天進補好一些呢，還是夏天進步好啊？?",?"desc":?"",?"answer":?"你好！\r\r當然是冬天進補好的了，夏天人體的胃處于收縮狀態，不適宜大量的進補，所以我們有時候說：“夏天就要吃些清淡的，就是這個道理的。”\r\r不過，秋季進補要注意“四忌”?一忌多多益善。任何補藥服用過量都有害。認為“多吃補藥，有病治病，無病強身”是不的。過量進補會加重脾胃、肝臟負擔。在夏季里，人們由于喝冷飲，常食凍品，多有脾胃功能減弱的現象，這時候如果突然大量進補，會驟然加重脾胃及肝臟的負擔，使長期處于疲弱的消化器官難于承受，導致消化器官功能紊亂。?\r\r二忌以藥代食。重藥物輕食物的做法是不科學的，許多食物也是好的滋補品。如多吃薺菜可治療高血壓；多吃蘿卜可健胃消食，順氣寬胸；多吃山藥能補脾胃。日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。\r\r三忌越貴越好。每個人的身體狀況不同，因此與之相適應的補品也是不同的。價格昂貴的補品如燕窩、人參之類并非對每個人都適合。每種進補品都有一定的對象和適應癥，應以實用有效為滋補原則，缺啥補啥。?\r\r四忌只補肉類。秋季適當食用牛羊肉進補效果好。但經過夏季后，由于脾胃尚未完全恢復到正常功能，因此過于油膩的食品不易消化吸收。另外，體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。"}

公開評測

歡迎報告模型在驗證集上的準確率。任務 1：類別預測。?

報告包括：#1）驗證集上準確率；#2）采用的模型、方法描述、運行方式，1頁PDF；#3）可運行的源代碼（可選）

基于#2和#3，我們會在測試集上做測試，并報告測試集上的準確率；只提供了#1和#2的隊伍，驗證集上的成績依然可以被顯示出來，但會被標記為未驗證。

翻譯語料 (translation2019zh)

520 萬個問答( 原始數據 1.1G，壓縮文件 596M)

下載鏈接：

https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip

數據描述

中英文平行語料 520 萬對。每一個對，包含一個英文和對應的中文。中文或英文，多數情況是一句帶標點符號的完整的話。

對于一個平行的中英文對，中文平均有 36 個字，英文平均有 19 個單詞（單詞如“she”）

數據集劃分：數據去重并分成三個部分。訓練集：516 萬；驗證集：3.9 萬；測試集，數萬，不提供下載。

可能的用途：可以用于訓練中英文翻譯系統，從中文翻譯到英文，或從英文翻譯到中文；由于有上百萬的中文句子，可以只抽取中文的句子，做為通用中文語料，訓練詞向量或做為預訓練的語料。英文任務也可以類似操作。

結構?

{"english":?<english>,?"chinese":?<chinese>}

其中，english是英文句子，chinese是中文句子，中英文一一對應。

例子

{"english":?"In?Italy,?there?is?no?real?public?pressure?for?a?new,?fairer?tax?system.",?"chinese":?"在意大利，公眾不會真的向政府施壓，要求實行新的、更公平的稅收制度。"}

公開評測

歡迎報告模型在驗證集上的準確率。任務 1：類別預測。?

報告包括：#1）驗證集上準確率；#2）采用的模型、方法描述、運行方式，1頁PDF；#3）可運行的源代碼（可選）

基于#2和#3，我們會在測試集上做測試，并報告測試集上的準確率；只提供了#1和#2的隊伍，驗證集上的成績依然可以被顯示出來，但會被標記為未驗證。

貢獻語料/Contribution

貢獻中文語料，請發送郵件至：

nlp_chinese_corpus@163.com

為了共同建立一個大規模開放共享的中文語料庫，以促進中文自然語言處理領域的發展，凡提供語料并被采納到該項目中，除了會列出貢獻者名單（可選）外，我們會根據語料的質量和量級，選出前 20 個同學，結合您的意愿，寄出鍵盤、鼠標、顯示屏、無線耳機、智能音箱或其他等值的物品，以表示對貢獻者的感謝。

點擊以下標題查看更多往期內容：?

Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述：模型與應用
近期值得讀的10篇GAN進展論文
F-Principle：初探理解深度學習不能做什么
自然語言處理中的語言模型預訓練方法
兩行代碼玩轉Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文：NLP的巨人肩膀（上）
NLP的巨人肩膀（下）：從CoVe到BERT

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？?答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的NLP Chinese Corpus：大规模中文自然语言处理语料的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度思考 | 从BERT看大规模数据的无
下一篇：逃离数学焦虑、算法选择，思考做好机器学习

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

NLP Chinese Corpus：大规模中文自然语言处理语料

維基百科json版 (wiki2019zh)

新聞語料json版 (news2016zh)

百科類問答json版 (baike2018qa)

翻譯語料 (translation2019zh)

貢獻語料/Contribution

總結