NLP Chinese Corpus:大规模中文自然语言处理语料
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在 2019 年初這個時點上,普通的從業者、研究人員或學生,并沒有一個比較好的渠道獲得極大量的中文語料。
筆者想要訓練一個中文的詞向量,在百度和 Github 上搜索了好久,收獲卻很少:要么語料的量級太小,要么數據過于成舊,或需要的處理太復雜。不知道你是否也遇到了這樣的問題?
我們這個項目,就是為了解決這一問題貢獻微薄之力。
項目地址:
https://github.com/brightmart/nlp_chinese_corpus
維基百科json版 (wiki2019zh)
104 萬個詞條(1,043,224 條;原始文件大小 1.6G,壓縮文件 519M;數據更新時間:2019.2.7)
下載鏈接:
https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip
可能的用途:可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用于構建知識問答。?
結構
例子?
效果
經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。
經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
其他的對照還包括了實證經濟學(研究「是什么」)以及規范經濟學(研究「應該是什么」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。
經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。
在現代對于經濟學的定義有數種說法,其中有許多說法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他說:
讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策里獨立出來,并定義其為對于財富之生產、分配、和消費的學問。另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂郁的科學」(Dismal?science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度:
.....
新聞語料json版 (news2016zh)
250 萬篇新聞(原始數據 9G,壓縮文件 3.6G;新聞內容跨度:2014-2016 年)
下載鏈接(密碼: film):
https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg
數據描述
包含了 250 萬篇新聞。新聞來源涵蓋了 6.3 萬個媒體,含標題、關鍵詞、描述、正文。
數據集劃分:數據去重并分成三個部分。訓練集:243 萬;驗證集:7.7 萬;測試集,數萬,不提供下載。
可能的用途:可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用于訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同于標題的數據);亦可以通過新聞渠道區分出新聞的類型。
結構
其中,title是新聞標題,content是正文,keywords是關鍵詞,desc是描述,source是新聞的來源,time是發布時間
例子
百科類問答json版 (baike2018qa)
150 萬個問答(原始數據 1G 多,壓縮文件 663M;數據更新時間:2018 年)
下載鏈接(密碼: fu45):
https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA
數據描述
含有 150 萬個問題和答案,每個問題屬于一個類別。總共有 492 個類別,其中頻率達到或超過 10 次的類別有 434 個。
數據集劃分:數據去重并分成三個部分。訓練集:142.5 萬;驗證集:4.5 萬;測試集,數萬,不提供下載。
可能的用途:可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用于構建百科類問答;其中類別信息比較有用,可以用于做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。
結構
其中,category是問題的類型,title是問題的標題,desc是問題的描述,可以為空或與標題內容一致。
例子
公開評測
歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。?
報告包括:#1)驗證集上準確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基于#2和#3,我們會在測試集上做測試,并報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。
翻譯語料 (translation2019zh)
520 萬個問答( 原始數據 1.1G,壓縮文件 596M)
下載鏈接:
https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip
數據描述
中英文平行語料 520 萬對。每一個對,包含一個英文和對應的中文。中文或英文,多數情況是一句帶標點符號的完整的話。
對于一個平行的中英文對,中文平均有 36 個字,英文平均有 19 個單詞(單詞如“she”)
數據集劃分:數據去重并分成三個部分。訓練集:516 萬;驗證集:3.9 萬;測試集,數萬,不提供下載。
可能的用途:可以用于訓練中英文翻譯系統,從中文翻譯到英文,或從英文翻譯到中文;由于有上百萬的中文句子,可以只抽取中文的句子,做為通用中文語料,訓練詞向量或做為預訓練的語料。英文任務也可以類似操作。
結構?
其中,english是英文句子,chinese是中文句子,中英文一一對應。
例子
公開評測
歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。?
報告包括:#1)驗證集上準確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基于#2和#3,我們會在測試集上做測試,并報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。
貢獻語料/Contribution
貢獻中文語料,請發送郵件至:
nlp_chinese_corpus@163.com
為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料并被采納到該項目中,除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前 20 個同學,結合您的意愿,寄出鍵盤、鼠標、顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻者的感謝。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
自然語言處理中的語言模型預訓練方法
兩行代碼玩轉Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的NLP Chinese Corpus:大规模中文自然语言处理语料的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度思考 | 从BERT看大规模数据的无
- 下一篇: 逃离数学焦虑、算法选择,思考做好机器学习