當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

几乎最全的中文NLP资源库

發(fā)布時間：2023/12/10 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了几乎最全的中文NLP资源库小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

NLP民工的樂園

The Most Powerful NLP-Weapon Arsenal

NLP民工的樂園: 幾乎最全的中文NLP資源庫

詞庫
工具包
學(xué)習(xí)資料

在入門到熟悉NLP的過程中，用到了很多github上的包，遂整理了一下，分享在這里。

很多包非常有趣，值得收藏，滿足大家的收集癖！如果覺得有用，請分享并star，謝謝！

長期不定時更新，歡迎watch和fork！

涉及內(nèi)容包括但不限于：中英文敏感詞、語言檢測、中外手機(jī)/電話歸屬地/運(yùn)營商查詢、名字推斷性別、手機(jī)號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞匯情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉(zhuǎn)換、英文模擬中文發(fā)音、汪峰歌詞生成器、職業(yè)名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續(xù)英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財(cái)經(jīng)詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫(yī)學(xué)詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數(shù)據(jù)、百度中文問答數(shù)據(jù)集、句子相似度匹配算法集合、bert資源、文本生成&摘要相關(guān)工具、cocoNLP信息抽取工具、國內(nèi)電話號碼正則匹配、清華大學(xué)XLORE:中英文跨語言百科知識圖譜、清華大學(xué)人工智能技術(shù)系列報(bào)告、自然語言生成、NLU太難了系列、自動對聯(lián)數(shù)據(jù)及機(jī)器人、用戶名黑名單列表、罪名法務(wù)名詞及分類模型、微信公眾號語料、cs224n深度學(xué)習(xí)自然語言處理課程、中文手寫漢字識別、中文自然語言處理語料/數(shù)據(jù)集、變量命名神器、分詞語料庫+代碼、任務(wù)型對話英文數(shù)據(jù)集、ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識別系統(tǒng)、笑聲檢測器、Microsoft多語言數(shù)字/單位/如日期時間識別包、中華新華字典數(shù)據(jù)庫及api(包括常用歇后語、成語、詞語和漢字)、文檔圖譜自動生成、SpaCy 中文模型、Common Voice語音識別數(shù)據(jù)集新版、神經(jīng)網(wǎng)絡(luò)關(guān)系抽取、基于bert的命名實(shí)體識別、關(guān)鍵詞(Keyphrase)抽取包pke、基于醫(yī)療領(lǐng)域知識圖譜的問答系統(tǒng)、基于依存句法與語義角色標(biāo)注的事件三元組抽取、依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù)、cnocr：用來做中文OCR的Python3包、中文人物關(guān)系知識圖譜項(xiàng)目、中文nlp競賽項(xiàng)目及代碼匯總、中文字符數(shù)據(jù)、speech-aligner: 從“人聲語音”及其“語言文本”產(chǎn)生音素級別時間對齊標(biāo)注的工具、AmpliGraph: 知識圖譜表示學(xué)習(xí)(Python)庫：知識圖譜概念鏈接預(yù)測、Scattertext 文本可視化(python)、語言/知識表示工具：BERT & ERNIE、中文對比英文自然語言處理NLP的區(qū)別綜述、Synonyms中文近義詞工具包、HarvestText領(lǐng)域自適應(yīng)文本挖掘工具（新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等）、word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個多語言對、語音識別語料生成工具：從具有音頻/字幕的在線視頻創(chuàng)建自動語音識別(ASR)語料庫、構(gòu)建醫(yī)療實(shí)體識別的模型（包含詞典和語料標(biāo)注）、單文檔非監(jiān)督的關(guān)鍵詞抽取、Kashgari中使用gpt-2語言模型、開源的金融投資數(shù)據(jù)提取工具、文本自動摘要庫TextTeaser: 僅支持英文、人民日報(bào)語料處理工具集、一些關(guān)于自然語言的基本模型、基于14W歌曲知識庫的問答嘗試--功能包括歌詞接龍and已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答、基于Siamese bilstm模型的相似句子判定模型并提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集、用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動生成評論、用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼、LitBank：NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料、百度開源的基準(zhǔn)信息抽取系統(tǒng)、虛假新聞數(shù)據(jù)集、Facebook: LAMA語言模型分析，提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口、CommonsenseQA：面向常識的英文QA挑戰(zhàn)、中文知識圖譜資料、數(shù)據(jù)及工具、各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT、自然語言生成SQL語句（英文）、中文NLP數(shù)據(jù)增強(qiáng)（EDA）工具、英文NLP數(shù)據(jù)增強(qiáng)工具、基于醫(yī)藥知識圖譜的智能問答系統(tǒng)、京東商品知識圖譜、基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目、基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取、語音情感分析、中文ULMFiT-情感分析-文本分類-語料及模型、一個拍照做題程序、世界各國大規(guī)模人名庫、一個利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人、中文聊天機(jī)器人seqGAN、省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注、教育行業(yè)新聞?wù)Z料庫包含自動文摘功能、開放了對話機(jī)器人-知識圖譜-語義理解-自然語言處理工具及數(shù)據(jù)、中文知識圖譜：基于百度百科中文頁面-抽取三元組信息-構(gòu)建中文知識圖譜、masr: 中文語音識別-提供預(yù)訓(xùn)練模型-高識別率、Python音頻數(shù)據(jù)增廣庫、中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù)、ConvLab：開源多域端到端對話系統(tǒng)平臺、中文自然語言處理數(shù)據(jù)集、基于最新版本rasa搭建的對話系統(tǒng)、基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取、一個小型的證券知識圖譜/知識庫、復(fù)盤所有NLP比賽的TOP方案、OpenCLaP：多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫、UER：基于不同語料+編碼器+目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫、中文自然語言處理向量合集、基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人、g2pC：基于上下文的漢語讀音自動標(biāo)記模塊、Zincbase 知識圖譜構(gòu)建工具包、詩歌質(zhì)量評價/細(xì)粒度情感詩歌語料庫、快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」、百度知道問答語料庫、基于知識圖譜的問答系統(tǒng)、jieba_fast 加速版的jieba、正則表達(dá)式教程、中文閱讀理解數(shù)據(jù)集、基于BERT等最新語言模型的抽取式摘要提取、Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南、知識圖譜深度學(xué)習(xí)相關(guān)資料整理、維基大規(guī)模平行文本語料、StanfordNLP 0.2.0：純Python版自然語言處理包、NeuralNLP-NeuralClassifier：騰訊開源深度學(xué)習(xí)文本分類工具、端到端的封閉域?qū)υ捪到y(tǒng)、中文命名實(shí)體識別：NeuroNER vs. BertNER、新聞事件線索抽取、2019年百度的三元組抽取比賽：“科學(xué)空間隊(duì)”源碼、基于依存句法的開放域文本知識三元組抽取和知識庫構(gòu)建、中文的GPT2訓(xùn)練代碼、ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)NLP面試中常考到的知識點(diǎn)和代碼實(shí)現(xiàn)、nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查、XLM：Facebook的跨語言預(yù)訓(xùn)練語言模型、用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識圖譜百度百科人物詞條屬性抽取、中文自然語言處理相關(guān)的開放任務(wù)-數(shù)據(jù)集-當(dāng)前最佳結(jié)果、CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯(lián)系統(tǒng)、抽象知識圖譜、MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目、brat rapid annotation tool: 序列標(biāo)注工具、大規(guī)模中文知識圖譜數(shù)據(jù)：1.4億實(shí)體、數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果、allennlp閱讀理解:支持多種數(shù)據(jù)和模型、PDF表格數(shù)據(jù)提取工具、 Graphbrain：AI開源軟件庫和科研工具，目的是促進(jìn)自動意義提取和文本理解以及知識的探索和推斷、簡歷自動篩選系統(tǒng)、基于命名實(shí)體識別的簡歷自動摘要、中文語言理解測評基準(zhǔn)，包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜、樹洞 OCR 文字識別、從包含表格的掃描圖片中識別表格和文字、語聲遷移、Python口語自然語言處理工具集(英文)、 similarity：相似度計(jì)算工具包，java編寫、海量中文預(yù)訓(xùn)練ALBERT模型、Transformers 2.0 、基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng) 、Poplar：網(wǎng)頁版自然語言標(biāo)注工具、圖片文字去除，可用于漫畫翻譯、186種語言的數(shù)字叫法庫、Amazon發(fā)布基于知識的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集、中文文本糾錯模塊代碼、繁簡體轉(zhuǎn)換、 Python實(shí)現(xiàn)的多種文本可讀性評價指標(biāo)、類似于人名/地名/組織機(jī)構(gòu)名的命名體識別數(shù)據(jù)集、東南大學(xué)《知識圖譜》研究生課程(資料)、. 英文拼寫檢查庫、 wwsearch是企業(yè)微信后臺自研的全文檢索引擎、CHAMELEON：深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu) 、 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思、DocSearch：免費(fèi)文檔搜索引擎、 LIDA：輕量交互式對話標(biāo)注工具、aili - the fastest in-memory index in the East 東半球最快并發(fā)索引、知識圖譜車音工作項(xiàng)目、自然語言生成資源大全、中日韓分詞庫mecab的Python接口庫、中文文本摘要/關(guān)鍵詞提取、漢字字符特征提取器 (featurizer)，提取漢字的特征（發(fā)音特征、字形特征）用做深度學(xué)習(xí)的特征、中文生成任務(wù)基準(zhǔn)測評、中文縮寫數(shù)據(jù)集、中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜、PySS3：面向可解釋AI的SS3文本分類器機(jī)器可視化工具、中文NLP數(shù)據(jù)集列表、COPE - 格律詩編輯程序、doccano：基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具、PreNLP：自然語言預(yù)處理庫、簡單的簡歷解析器，用來從簡歷中提取關(guān)鍵信息、用于中文閑聊的GPT2模型：GPT2-chitchat、基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程、詞語拼音數(shù)據(jù)、高效模糊搜索工具、NLP數(shù)據(jù)增廣資源集、微軟對話機(jī)器人框架、 GitHub Typo Corpus：大規(guī)模GitHub多語言拼寫錯誤/語法錯誤數(shù)據(jù)集、TextCluster：短文本聚類預(yù)處理模塊 Short text cluster、面向語音識別的中文文本規(guī)范化、BLINK：最先進(jìn)的實(shí)體鏈接庫、BertPunc：基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型、Tokenizer：快速、可定制的文本詞條化庫、中文語言理解測評基準(zhǔn)，包括代表性的數(shù)據(jù)集、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫、排行榜、spaCy 醫(yī)學(xué)文本挖掘與信息提取、 NLP任務(wù)示例項(xiàng)目代碼集、 python拼寫檢查庫、chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹、語音質(zhì)量評價指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR)、用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型、BERT-NER-Pytorch：三種不同模式的BERT中文NER實(shí)驗(yàn)、無道詞典 - 有道詞典的命令行版本，支持英漢互查和在線查詢、2019年NLP亮點(diǎn)回顧、 Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集、最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具、基于百科知識庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧、awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取、LineFlow：面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器、中文醫(yī)學(xué)NLP公開資源整理、MedQuAD：(英文)醫(yī)學(xué)問答數(shù)據(jù)集、將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù)、Transfer Learning in Natural Language Processing (NLP) 、面向語音識別的中文/英文發(fā)音辭典、Tokenizers：注重性能與多功能性的最先進(jìn)分詞器、CLUENER 細(xì)粒度命名實(shí)體識別 Fine Grained Named Entity Recognition、基于BERT的中文命名實(shí)體識別、中文謠言數(shù)據(jù)庫、NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表、nlp相關(guān)的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實(shí)體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計(jì)算等，涉及到各種與nlp相關(guān)的算法，基于keras和tensorflow 、Python文本挖掘/NLP實(shí)戰(zhàn)示例、 Blackstone：面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型通過同義詞替換實(shí)現(xiàn)文本“變臉” 、中文預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model 、albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER 、基于GPT2的特定主題文本生成/文本增廣、開源預(yù)訓(xùn)練語言模型合集、多語言句向量包、編碼、標(biāo)記和實(shí)現(xiàn)：一種可控高效的文本生成方法、英文臟話大列表、attnvis：GPT2、BERT等transformer語言模型注意力交互可視化、CoVoST：Facebook發(fā)布的多語種語音-文本翻譯語料庫，包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉(zhuǎn)錄及英文譯文、Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ)，提供知識圖譜關(guān)系抽取中文分詞詞性標(biāo)注命名實(shí)體識別情感分析新詞發(fā)現(xiàn) 關(guān)鍵詞文本摘要文本聚類等功能、用unet實(shí)現(xiàn)對文檔表格的自動檢測，表格重建、NLP事件提取文獻(xiàn)資源列表、金融領(lǐng)域自然語言處理研究資源大列表、CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集：搜索所有中文NLP數(shù)據(jù)集，附常用英文NLP數(shù)據(jù)集、medical_NER - 中文醫(yī)學(xué)知識圖譜命名實(shí)體識別、(哈佛)講因果推理的免費(fèi)書、知識圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表、Forte：靈活強(qiáng)大的自然語言處理pipeline工具集、Python字符串相似性算法庫、PyLaia：面向手寫文檔分析的深度學(xué)習(xí)工具包、TextFooler：針對文本分類/推理的對抗文本生成模塊、Haystack：靈活、強(qiáng)大的可擴(kuò)展問答(QA)框架、中文關(guān)鍵短語抽取工具。

1. textfilter: 中英文敏感詞過濾?observerss/textfilter

>>> f = DFAFilter()>>> f.add("sexy")>>> f.filter("hello sexy baby")hello **** baby

敏感詞包括政治、臟話等話題詞匯。其原理主要是基于詞典的查找（項(xiàng)目中的keyword文件），內(nèi)容很勁爆。。。

2. langid：97種語言檢測?https://github.com/saffsd/langid.py

pip install langid

>>> import langid >>> langid.classify("This is a test") ('en', -54.41310358047485)

3. langdetect：另一個語言檢測https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect from langdetect import detect_langss1 = "本篇博客主要介紹兩款語言探測工具，用于區(qū)分文本到底是什么語言，" s2 = 'We are pleased to introduce today a new technology' print(detect(s1)) print(detect(s2)) print(detect_langs(s3)) # detect_langs()輸出探測出的所有語言類型及其所占的比例

輸出結(jié)果如下：注：語言類型主要參考的是ISO 639-1語言編碼標(biāo)準(zhǔn)，詳見ISO 639-1百度百科

跟上一個語言檢測比較，準(zhǔn)確率低，效率高。

4. phone 中國手機(jī)歸屬地查詢：?ls0f/phone

已集成到 python package?cocoNLP中，歡迎試用

from phone import Phone p = Phone() p.find(18100065143) #return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}

支持號段: 13*,15*,18*,14[5,7],17[0,6,7,8]

記錄條數(shù): 360569 (updated:2017年4月)

作者提供了數(shù)據(jù)phone.dat?方便非python用戶Load數(shù)據(jù)。

5. phone國際手機(jī)、電話歸屬地查詢：AfterShip/phone

npm install phone

import phone from 'phone'; phone('+852 6569-8900'); // return ['+85265698900', 'HKG'] phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根據(jù)名字判斷性別：observerss/ngender?基于樸素貝葉斯計(jì)算的概率

pip install ngender

>>> import ngender >>> ngender.guess('趙本山') ('male', 0.9836229687547046) >>> ngender.guess('宋丹丹') ('female', 0.9759486128949907)

7. 抽取email的正則表達(dá)式

已集成到 python package?cocoNLP中，歡迎試用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$' emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_number的正則表達(dá)式

已集成到 python package?cocoNLP中，歡迎試用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$' phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取身份證號的正則表達(dá)式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$' IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名語料庫：?wainshine/Chinese-Names-Corpus

人名抽取功能 python package?cocoNLP，歡迎試用

中文（現(xiàn)代、古代）名字、日文名字、中文的姓和名、稱呼（大姨媽、小姨媽等）、英文->中文名字（李約翰）、成語詞典

（可用于中文分詞、姓名識別）

11. 中文縮寫庫：github

全國人大: 全國/n 人民/n 代表大會/n 中國: 中華人民共和國/ns 女網(wǎng)賽: 女子/n 網(wǎng)球/n 比賽/vn

12. 漢語拆字詞典：kfcd/chaizi

漢字拆法 (一) 拆法 (二) 拆法 (三) 拆手斥扌斥才斥

13. 詞匯情感值：rainarch/SentiBridge

山泉水充沛 0.400704566541 0.370067395878 視野寬廣 0.305762728932 0.325320747491 大峽谷驚險 0.312137906517 0.378594957281

14. 中文詞庫、停用詞、敏感詞?dongxiexidian/Chinese

此package的敏感詞庫分類更細(xì)：

反動詞庫，?敏感詞庫表統(tǒng)計(jì)，?暴恐詞庫，?民生詞庫，?色情詞庫

15. 漢字轉(zhuǎn)拼音：mozillazg/python-pinyin

文本糾錯會用到

16. 中文繁簡體互轉(zhuǎn)：skydark/nstools

17. 英文模擬中文發(fā)音引擎?funny chinese text to speech enginee：tinyfool/ChineseWithEnglish

say wo i ni #說：我愛你

相當(dāng)于用英文音標(biāo)，模擬中文發(fā)音。

18. 汪峰歌詞生成器：phunterlau/wangfeng-rnn

我在這里中的夜里就像一場是一種生命的意旪就像我的生活變得在我一樣可我們這是一個知道我只是一天你會怎嗎

19. 同義詞庫、反義詞庫、否定詞庫：guotong1988/chinese_dictionary

20. 無空格英文串分割、抽取單詞：wordninja

>>> import wordninja >>> wordninja.split('derekanderson') ['derek', 'anderson'] >>> wordninja.split('imateapot') ['im', 'a', 'teapot']

21. IP地址正則表達(dá)式：

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 騰訊QQ號正則表達(dá)式：

[1-9]([0-9]{5,11})

23. 國內(nèi)固話號碼正則表達(dá)式：

[0-9-()（）]{7,18}

24. 用戶名正則表達(dá)式：

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽車品牌、汽車零件相關(guān)詞匯：

見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 時間抽取：

已集成到 python package?cocoNLP中，歡迎試用

在2016年6月7日9:44執(zhí)行測試，結(jié)果如下Hi，all。下周一下午三點(diǎn)開會>> 2016-06-13 15:00:00-false周一開會>> 2016-06-13 00:00:00-true下下周一開會>> 2016-06-20 00:00:00-true

java version

python version

27. 各種中文詞向量：?github repo

中文詞向量大全

28. 公司名字大全：?github repo

29. 古詩詞庫：?github repo?更全的古詩詞庫

30. THU整理的詞庫：?link

已整理到本repo的data文件夾中.

IT詞庫、財(cái)經(jīng)詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫(yī)學(xué)詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫

31. 中文聊天語料?link

該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料

32. 中文謠言數(shù)據(jù):?github

該數(shù)據(jù)文件中，每一行為一條json格式的謠言數(shù)據(jù)，字段釋義如下：rumorCode: 該條謠言的唯一編碼，可以通過該編碼直接訪問該謠言舉報(bào)頁面。 title: 該條謠言被舉報(bào)的標(biāo)題內(nèi)容 informerName: 舉報(bào)者微博名稱 informerUrl: 舉報(bào)者微博鏈接 rumormongerName: 發(fā)布謠言者的微博名稱 rumormongerUr: 發(fā)布謠言者的微博鏈接 rumorText: 謠言內(nèi)容 visitTimes: 該謠言被訪問次數(shù) result: 該謠言審查結(jié)果 publishTime: 該謠言被舉報(bào)時間

33. 情感波動分析：github

詞庫已整理到本repo的data文件夾中.

本repo項(xiàng)目是一個通過與人對話獲得其情感值波動圖譜, 內(nèi)用詞庫在data文件夾中.

34. 中文問答數(shù)據(jù)集：鏈接?提取碼: 2dva

35. 句子、QA相似度匹配:MatchZoo?github

文本相似度匹配算法的集合，包含多個深度學(xué)習(xí)的方法，值得嘗試。

36. bert資源：

bert論文中文翻譯:?link

bert原作者的slides:?link?提取碼: iarj
文本分類實(shí)踐:?github
bert tutorial文本分類教程:?github
bert pytorch實(shí)現(xiàn):?github
bert用于中文命名實(shí)體識別 tensorflow版本:?github
BERT生成句向量，BERT做文本分類、文本相似度計(jì)算github
bert 基于 keras 的封裝分類標(biāo)注框架 Kashgari，幾分鐘即可搭建一個分類或者序列標(biāo)注模型:?github
bert、ELMO的圖解：?github
BERT: Pre-trained models and downstream applications:?github

37. Texar - Toolkit for Text Generation and Beyond:?github

基于Tensorflow的開源工具包，旨在支持廣泛的機(jī)器學(xué)習(xí)，特別是文本生成任務(wù)，如機(jī)器翻譯、對話、摘要、內(nèi)容處置、語言建模等

38. 中文事件抽取：?github

中文復(fù)合事件抽取，包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件抽取，并形成事理圖譜。

39. cocoNLP:?github

人名、地址、郵箱、手機(jī)號、手機(jī)歸屬地等信息的抽取，rake短語抽取算法。

pip install cocoNLP

>>> from cocoNLP.extractor import extractor>>> ex = extractor()>>> text = '急尋特朗普，男孩，于2018年11月27號11時在陜西省安康市漢濱區(qū)走失。丟失發(fā)型短發(fā)，...如有線索，請迅速與警方聯(lián)系：18100065143，132-6156-2938，baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'# 抽取郵箱 >>> emails = ex.extract_email(text) >>> print(emails)['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn'] # 抽取手機(jī)號 >>> cellphones = ex.extract_cellphone(text,nation='CHN') >>> print(cellphones)['18100065143', '13261562938'] # 抽取手機(jī)歸屬地、運(yùn)營商 >>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones] >>> print(cell_locs)cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}] # 抽取地址信息 >>> locations = ex.extract_locations(text) >>> print(locations) ['陜西省安康市漢濱區(qū)', '安康市漢濱區(qū)', '漢濱區(qū)'] # 抽取時間點(diǎn) >>> times = ex.extract_time(text) >>> print(times) time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"} # 抽取人名 >>> name = ex.extract_name(text) >>> print(name) 特朗普

40. 國內(nèi)電話號碼正則匹配（三大運(yùn)營商+虛擬等）:?github

41. 清華大學(xué)XLORE:中英文跨語言百科知識圖譜:?link
上述鏈接中包含了所有實(shí)體及關(guān)系的TTL文件，更多數(shù)據(jù)將在近期發(fā)布。概念，實(shí)例，屬性和上下位關(guān)系數(shù)目

?百度中文維基英文維基總數(shù)

概念數(shù)量	32,009	150,241	326,518	508,768
實(shí)例數(shù)量	1,629,591	640,622	1,235,178	3,505,391
屬性數(shù)量	157,370	45,190	26,723	229.283
InstanceOf	7,584,931	1,449,925	3,032,515	12,067,371
SubClassOf	2,784	191,577	555,538	749,899

跨語言連接（概念/實(shí)例）

?百度中文維基英文維基

百度	-	10,216/336,890	4,846/303,108
中文維基	10,216/336,890	-	28,921/454,579
英文維基	4,846/303,108	28,921/454,579	-

42. 清華大學(xué)人工智能技術(shù)系列報(bào)告：?link
每年會出AI領(lǐng)域相關(guān)的報(bào)告，內(nèi)容包含

自然語言處理?link
知識圖譜?link
數(shù)據(jù)挖掘?link
自動駕駛?link
機(jī)器翻譯?link
區(qū)塊鏈?link
機(jī)器人?link
計(jì)算機(jī)圖形學(xué)?link
3D打印?link
人臉識別?link
人工智能芯片?link
等等

43.自然語言生成方面:

Ehud Reiter教授的博客?北大萬小軍教授強(qiáng)力推薦，該博客對NLG技術(shù)、評價與應(yīng)用進(jìn)行了深入的探討與反思。
文本生成相關(guān)資源大列表
自然語言生成：讓機(jī)器掌握自動創(chuàng)作的本領(lǐng) - 開放域?qū)υ捝杉霸谖④浶”械膶?shí)踐
文本生成控制
自然語言生成相關(guān)資源大列表

44.:?jieba和hanlp就不必介紹了吧。

45.NLP太難了系列:?github

來到楊過曾經(jīng)生活過的地方，小龍女動情地說：“我也想過過過兒過過的生活。” ???
來到兒子等校車的地方，鄧超對孫儷說：“我也想等等等等等過的那輛車。”
趙敏說：我也想控忌忌己不想無忌。
你也想犯范范范瑋琪犯過的錯嗎
對敘打擊是一次性行為？

46.自動對聯(lián)數(shù)據(jù)及機(jī)器人:
70萬對聯(lián)數(shù)據(jù) link
代碼 link

上聯(lián)下聯(lián)

殷勤怕負(fù)三春意	瀟灑難書一字愁
如此清秋何吝酒	這般明月不須錢

47.用戶名黑名單列表：?github?包含了用戶名禁用列表，比如:?link

administrator administration autoconfig autodiscover broadcasthost domain editor guest host hostmaster info keybase.txt localdomain localhost master mail mail0 mail1

48.罪名法務(wù)名詞及分類模型:?github

包含856項(xiàng)罪名知識圖譜, 基于280萬罪名訓(xùn)練庫的罪名預(yù)測,基于20W法務(wù)問答對的13類問題分類與法律資訊問答功能

49.微信公眾號語料:?github

3G語料，包含部分網(wǎng)絡(luò)抓取的微信公眾號的文章，已經(jīng)去除HTML，只包含了純文本。每行一篇，是JSON格式，name是微信公眾號名字，account是微信公眾號ID，title是題目，content是正文

50.cs224n深度學(xué)習(xí)自然語言處理課程：link

課程中模型的pytorch實(shí)現(xiàn)?link
面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程?link

51.中文手寫漢字識別：github

52.中文自然語言處理語料/數(shù)據(jù)集：github?競品：THUOCL（THU Open Chinese Lexicon）中文詞庫

53.變量命名神器：github?link

54.分詞語料庫+代碼：百度網(wǎng)盤鏈接

提取碼: pea6
keras實(shí)現(xiàn)的基于Bi-LSTM + CRF的中文分詞+詞性標(biāo)注
基于Universal Transformer + CRF 的中文分詞和詞性標(biāo)注
快速神經(jīng)網(wǎng)絡(luò)分詞包 java version

55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein：?link

56. 任務(wù)型對話英文數(shù)據(jù)集：?github
【最全任務(wù)型對話數(shù)據(jù)集】主要介紹了一份任務(wù)型對話數(shù)據(jù)集大全，這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對話領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外，為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò)，我們以Leaderboard的形式給出了幾個數(shù)據(jù)集上的State-of-the-art實(shí)驗(yàn)結(jié)果。

57. ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識別系統(tǒng)：?github

Data Sets 數(shù)據(jù)集
- 清華大學(xué)THCHS30中文語音數(shù)據(jù)集
  
  data_thchs30.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
  
  test-noise.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
  
  resource.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
- Free ST Chinese Mandarin Corpus
  
  ST-CMDS-20170001_1-OS.tar.gz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
- AIShell-1 開源版數(shù)據(jù)集
  
  data_aishell.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
注：數(shù)據(jù)集解壓方法
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
- Primewords Chinese Corpus Set 1
  
  primewords_md_2018_set1.tar.gz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像

58. 笑聲檢測器：?github

59. Microsoft多語言數(shù)字/單位/如日期時間識別包：?[github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua 中華新華字典數(shù)據(jù)庫及api，包括常用歇后語、成語、詞語和漢字?github

61. 文檔圖譜自動生成?github

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。輸入一篇文檔，將文檔進(jìn)行關(guān)鍵信息提取，進(jìn)行結(jié)構(gòu)化，并最終組織成圖譜組織形式，形成對文章語義信息的圖譜化展示

62. SpaCy 中文模型?github

包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的，如果要適配中文，可能需要使用spacy中文模型。

63. Common Voice語音識別數(shù)據(jù)集新版?link

包括來自42,000名貢獻(xiàn)者超過1,400小時的語音樣本，涵github

64. 神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 pytorch?github

暫不支持中文

65. 基于bert的命名實(shí)體識別 pytorch?github

暫不支持中文

66. 關(guān)鍵詞(Keyphrase)抽取包 pke?github
pke: an open source python-based keyphrase extraction toolkit

暫不支持中文，我于近期對其進(jìn)行修改，使其適配中文。請關(guān)注我的github動態(tài)，謝謝！

67. 基于醫(yī)療領(lǐng)域知識圖譜的問答系統(tǒng)?github

該repo參考了github

68. 基于依存句法與語義角色標(biāo)注的事件三元組抽取?github

69. 依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù)?by 蘇州大學(xué)漢語依存樹庫（SUCDT）?Homepage?數(shù)據(jù)下載詳見homepage底部，需要簽署協(xié)議，需要郵件接收解壓密碼。

70. cnocr：用來做中文OCR的Python3包，自帶了訓(xùn)練好的識別模型?github

71. 中文人物關(guān)系知識圖譜項(xiàng)目?github

中文人物關(guān)系圖譜構(gòu)建
基于知識庫的數(shù)據(jù)回標(biāo)
基于遠(yuǎn)程監(jiān)督與bootstrapping方法的人物關(guān)系抽取
基于知識圖譜的知識問答等應(yīng)用

72. 中文nlp競賽項(xiàng)目及代碼匯總?github

文本生成、文本摘要：Byte Cup 2018 國際機(jī)器學(xué)習(xí)競賽
知識圖譜：瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識圖譜大賽
視頻識別問答：2018之江杯全球人工智能大賽?：視頻識別&問答

73. 中文字符數(shù)據(jù)?github

簡/繁體漢字筆順
矢量筆畫

74. speech-aligner: 從“人聲語音”及其“語言文本”，產(chǎn)生音素級別時間對齊標(biāo)注的工具?github

75. AmpliGraph: 知識圖譜表示學(xué)習(xí)(Python)庫：知識圖譜概念鏈接預(yù)測?github

埃森哲出品，目前尚不支持中文

76. Scattertext 文本可視化(python)?github

很好用的工具包，簡單修改后可支持中文
能否分析出某個類別的文本與其他文本的用詞差異

77. 語言/知識表示工具：BERT & ERNIE?github

百度出品，ERNIE也號稱在多項(xiàng)nlp任務(wù)中擊敗了bert

78. 中文對比英文自然語言處理NLP的區(qū)別綜述?link

79. Synonyms中文近義詞工具包?github

Synonyms 中文近義詞工具包，可以用于自然語言理解的很多任務(wù)：文本對齊，推薦算法，相似度計(jì)算，語義偏移，關(guān)鍵字提取，概念提取，自動摘要，搜索引擎等

80. HarvestText領(lǐng)域自適應(yīng)文本挖掘工具（新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等）?github

81. word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個多語言對?github

82. 語音識別語料生成工具：從具有音頻/字幕的在線視頻創(chuàng)建自動語音識別(ASR)語料庫?github

83. ASR語音大辭典/詞典：?github

84. 構(gòu)建醫(yī)療實(shí)體識別的模型，包含詞典和語料標(biāo)注，基于python:?github

85. 單文檔非監(jiān)督的關(guān)鍵詞抽取：?github

86. Kashgari中使用gpt-2語言模型?github

87. 開源的金融投資數(shù)據(jù)提取工具?github

88. 文本自動摘要庫TextTeaser: 僅支持英文?github

89. 人民日報(bào)語料處理工具集?github

90. 一些關(guān)于自然語言的基本模型?github

91. 基于14W歌曲知識庫的問答嘗試，功能包括歌詞接龍，已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答?github

92. 基于Siamese bilstm模型的相似句子判定模型,提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集?github

提供了10萬個訓(xùn)練樣本

93. 用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動生成評論?github

94. 用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼?github

95. LitBank：NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料?github

96. 百度開源的基準(zhǔn)信息抽取系統(tǒng)?github

97. 虛假新聞數(shù)據(jù)集 fake news corpus?github

98. Facebook: LAMA語言模型分析，提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口?github

99. CommonsenseQA：面向常識的英文QA挑戰(zhàn)?link

100. 中文知識圖譜資料、數(shù)據(jù)及工具?github

101. 各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT?github

102. 自然語言生成SQL語句（英文）?github

103. 中文NLP數(shù)據(jù)增強(qiáng)（EDA）工具?github

?英文NLP數(shù)據(jù)增強(qiáng)工具?github

104. 基于醫(yī)藥知識圖譜的智能問答系統(tǒng)?github

105. 京東商品知識圖譜?github

基于京東網(wǎng)站的1300種商品上下級概念，約10萬商品品牌，約65萬品牌銷售關(guān)系，商品描述維度等知識庫，基于該知識庫可以支持商品屬性庫構(gòu)建，商品銷售問答，品牌物品生產(chǎn)等知識查詢服務(wù)，也可用于情感分析等下游應(yīng)用．

106. 基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目?github

基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目，包括飛行器、太空裝備等8大類，100余小類，共計(jì)5800項(xiàng)的軍事武器知識庫，該項(xiàng)目不使用圖數(shù)據(jù)庫進(jìn)行存儲，通過jieba進(jìn)行問句解析，問句實(shí)體項(xiàng)識別，基于查詢模板完成多類問題的查詢，主要是提供一種工業(yè)界的問答思想demo。

107. 基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取?github

108. 語音情感分析?github

109. 中文ULMFiT 情感分析文本分類語料及模型?github

110. 一個拍照做題程序。輸入一張包含數(shù)學(xué)計(jì)算題的圖片，輸出識別出的數(shù)學(xué)計(jì)算式以及計(jì)算結(jié)果?github

111. 世界各國大規(guī)模人名庫?github

112. 一個利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人?github

使用了青云語料10萬語料，本repo中也有該語料的鏈接

113. 中文聊天機(jī)器人，根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人，可以用于智能客服、在線問答、智能聊天等場景?github

根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人，可以用于智能客服、在線問答、智能聊天等場景。加入seqGAN版本。
repo中提供了一份質(zhì)量不太高的語料

114. 省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注?github

國家統(tǒng)計(jì)局中的省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注，高德地圖的坐標(biāo)和行政區(qū)域邊界范圍，在瀏覽器里面運(yùn)行js代碼采集的2019年發(fā)布的最新數(shù)據(jù)，含采集源碼，提供csv格式數(shù)據(jù)，支持csv轉(zhuǎn)成省市區(qū)多級聯(lián)動js代碼
坐標(biāo)、邊界范圍、名稱、拼音、行政區(qū)等多級地址

115. 教育行業(yè)新聞自動文摘語料庫?github

116. 開放了對話機(jī)器人、知識圖譜、語義理解、自然語言處理工具及數(shù)據(jù)?github

另一個qa對的機(jī)器人?Amodel-for-Retrivalchatbot - 客服機(jī)器人，Chinese Retreival chatbot（中文檢索式機(jī)器人）

117. 中文知識圖譜：基于百度百科中文頁面，抽取三元組信息，構(gòu)建中文知識圖譜?github

118. masr: 中文語音識別，提供預(yù)訓(xùn)練模型，高識別率?github

119. Python音頻數(shù)據(jù)增廣庫?github

120. 中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù)?github

DRCD數(shù)據(jù)集由中國臺灣臺達(dá)研究院發(fā)布，其形式與SQuAD相同，是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。
CMRC 2018數(shù)據(jù)集是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)。根據(jù)給定問題，系統(tǒng)需要從篇章中抽取出片段作為答案，形式與SQuAD相同。

121. ConvLab：開源多域端到端對話系統(tǒng)平臺?github

122. 中文自然語言處理數(shù)據(jù)集?github

123. 基于最新版本rasa搭建的對話系統(tǒng)?github

124. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取?github

Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取，2019語言與智能技術(shù)競賽信息抽取任務(wù)解決方案。Schema based Knowledge Extraction, SKE 2019

125. 一個小型的證券知識圖譜/知識庫?github

126. 復(fù)盤所有NLP比賽的TOP方案?github

127. OpenCLaP：多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫?github?包含如下語言模型及百度百科數(shù)據(jù)

民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB

128. UER：基于不同語料、編碼器、目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫（包括BERT、GPT、ELMO等）?github

基于PyTorch的預(yù)訓(xùn)練模型框架，支持對編碼器，目標(biāo)任務(wù)等進(jìn)行任意的組合，從而復(fù)現(xiàn)已有的預(yù)訓(xùn)練模型，或在已有的預(yù)訓(xùn)練模型上進(jìn)一步改進(jìn)。基于UER訓(xùn)練了不同性質(zhì)的預(yù)訓(xùn)練模型（不同語料、編碼器、目標(biāo)任務(wù)），構(gòu)成了中文預(yù)訓(xùn)練模型倉庫，適用于不同的場景。

129. 中文自然語言處理向量合集?github

包括字向量,拼音向量,詞向量,詞性向量,依存關(guān)系向量.共5種類型的向量

130. 基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人?github

其中的主要模塊有信息抽取、NLU、NLG、知識圖譜等，并且利用Django整合了前端展示,目前已經(jīng)封裝了nlp和kg的restful接口

131. g2pC：基于上下文的漢語讀音自動標(biāo)記模塊?github

132. Zincbase 知識圖譜構(gòu)建工具包?github

133. 詩歌質(zhì)量評價/細(xì)粒度情感詩歌語料庫?github

134. 快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」?github

中文、阿拉伯?dāng)?shù)字互轉(zhuǎn)
中文與阿拉伯?dāng)?shù)字混合的情況，在開發(fā)中

135. 百度知道問答語料庫?github

超過580萬的問題，938萬的答案，5800個分類標(biāo)簽。基于該問答語料庫，可支持多種應(yīng)用，如閑聊問答，邏輯挖掘

136. 基于知識圖譜的問答系統(tǒng)?github

BERT做命名實(shí)體識別和句子相似度，分為online和outline模式

137. jieba_fast 加速版的jieba?github

使用cpython重寫了jieba分詞庫中計(jì)算DAG和HMM中的vitrebi函數(shù)，速度得到大幅提升

138. 正則表達(dá)式教程?github

139. 中文閱讀理解數(shù)據(jù)集?github

140. 基于BERT等最新語言模型的抽取式摘要提取?github

141. Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南?link

142. 知識圖譜深度學(xué)習(xí)相關(guān)資料整理?github

深度學(xué)習(xí)與自然語言處理、知識圖譜、對話系統(tǒng)。包括知識獲取、知識庫構(gòu)建、知識庫應(yīng)用三大技術(shù)研究與應(yīng)用

143. 維基大規(guī)模平行文本語料?github

85種語言、1620種語言對、135M對照句

144. StanfordNLP 0.2.0：純Python版自然語言處理包?link

145. NeuralNLP-NeuralClassifier：騰訊開源深度學(xué)習(xí)文本分類工具?github

146. 端到端的封閉域?qū)υ捪到y(tǒng)?github

147. 中文命名實(shí)體識別：NeuroNER vs. BertNER?github

148. 新聞事件線索抽取?github

An exploration for Eventline (important news Rank organized by pulic time)，針對某一事件話題下的新聞報(bào)道集合，通過使用docrank算法，對新聞報(bào)道進(jìn)行重要性識別，并通過新聞報(bào)道時間挑選出時間線上重要新聞

149. 2019年百度的三元組抽取比賽，“科學(xué)空間隊(duì)”源碼(第7名)?github

150. 基于依存句法的開放域文本知識三元組抽取和知識庫構(gòu)建?github

151. 中文的GPT2訓(xùn)練代碼?github

152. ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)、NLP面試中常考到的知識點(diǎn)和代碼實(shí)現(xiàn)?github

153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查?github

154. XLM：Facebook的跨語言預(yù)訓(xùn)練語言模型?github

155. 用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識圖譜百度百科人物詞條屬性抽取?github

156. 中文自然語言處理相關(guān)的開放任務(wù)，數(shù)據(jù)集, 以及當(dāng)前最佳結(jié)果?github

157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯(lián)系統(tǒng)?github

158. 抽象知識圖譜，目前規(guī)模50萬，支持名詞性實(shí)體、狀態(tài)性描述、事件性動作進(jìn)行抽象?github

159. MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目?github

160. brat rapid annotation tool: 序列標(biāo)注工具?link

161. 大規(guī)模中文知識圖譜數(shù)據(jù)：：1.4億實(shí)體?github

162. 數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果?link

163. allennlp閱讀理解:支持多種數(shù)據(jù)和模型?github

164. PDF表格數(shù)據(jù)提取工具?github

165. Graphbrain：AI開源軟件庫和科研工具，目的是促進(jìn)自動意義提取和文本理解以及知識的探索和推斷?github

166. 簡歷自動篩選系統(tǒng)?github

167. 基于命名實(shí)體識別的簡歷自動摘要?github

168. 中文語言理解測評基準(zhǔn)，包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜?github

169. 樹洞 OCR 文字識別?github

一個c++ OCR?github
?

170. 從包含表格的掃描圖片中識別表格和文字?github

171. 語聲遷移?github

172. Python口語自然語言處理工具集(英文)?github

173. similarity：相似度計(jì)算工具包，java編寫?github

用于詞語、短語、句子、詞法分析、情感分析、語義分析等相關(guān)的相似度計(jì)算

174. 海量中文預(yù)訓(xùn)練ALBERT模型?github

175. Transformers 2.0?github

支持TensorFlow 2.0 和 PyTorch 的自然語言處理預(yù)訓(xùn)練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構(gòu)/33種預(yù)訓(xùn)練模型/102種語言

176. 基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng)?github

177. Poplar：網(wǎng)頁版自然語言標(biāo)注工具?github

178. 圖片文字去除，可用于漫畫翻譯?github

179. 186種語言的數(shù)字叫法庫?github

180. Amazon發(fā)布基于知識的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集?github

181. 中文文本糾錯模塊代碼?github

182. 繁簡體轉(zhuǎn)換?github

183. Python實(shí)現(xiàn)的多種文本可讀性評價指標(biāo)?github

184. 類似于人名/地名/組織機(jī)構(gòu)名的命名體識別數(shù)據(jù)集?github

185. 東南大學(xué)《知識圖譜》研究生課程(資料)?github

186. 英文拼寫檢查庫?github

from spellchecker import SpellCheckerspell = SpellChecker()# find those words that may be misspelled misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])for word in misspelled:# Get the one `most likely` answerprint(spell.correction(word))# Get a list of `likely` optionsprint(spell.candidates(word))

187. wwsearch是企業(yè)微信后臺自研的全文檢索引擎?github

188. CHAMELEON：深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu)?github

189. 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思?github

190. DocSearch：免費(fèi)文檔搜索引擎?github

191. LIDA：輕量交互式對話標(biāo)注工具?github

192. aili - the fastest in-memory index in the East 東半球最快并發(fā)索引?github

193. 知識圖譜車音工作項(xiàng)目?github

194. 自然語言生成資源大全?github

內(nèi)含英文數(shù)據(jù)、論文、代碼

195. 中日韓分詞庫mecab的Python接口庫?github

196. 中文文本摘要/關(guān)鍵詞提取?github

197. 漢字字符特征提取器 (featurizer)，提取漢字的特征（發(fā)音特征、字形特征）用做深度學(xué)習(xí)的特征?github

198. 中文生成任務(wù)基準(zhǔn)測評?github

199. 中文縮寫數(shù)據(jù)集?github

200. 中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜?github

201. PySS3：面向可解釋AI的SS3文本分類器機(jī)器可視化工具?github

202. 中文NLP數(shù)據(jù)集列表?github

203. COPE - 格律詩編輯程序?github

204. doccano：基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具?github

205. PreNLP：自然語言預(yù)處理庫?github

206. 簡單的簡歷解析器，用來從簡歷中提取關(guān)鍵信息?github

207. 用于中文閑聊的GPT2模型：GPT2-chitchat?github

208. 基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards、Datasets、Papers)?github

209. (Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程?github

210. 詞語拼音數(shù)據(jù)?github

211. 高效模糊搜索工具?github

212. NLP數(shù)據(jù)增廣資源集?github

213. 微軟對話機(jī)器人框架?github

214. GitHub Typo Corpus：大規(guī)模GitHub多語言拼寫錯誤/語法錯誤數(shù)據(jù)集?github

215. TextCluster：短文本聚類預(yù)處理模塊 Short text cluster?github

216. 面向語音識別的中文文本規(guī)范化?github

217. BLINK：最先進(jìn)的實(shí)體鏈接庫?github

218. BertPunc：基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型?github

219. Tokenizer：快速、可定制的文本詞條化庫?github

220. 中文語言理解測評基準(zhǔn)，包括代表性的數(shù)據(jù)集、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫、排行榜?github

221. spaCy 醫(yī)學(xué)文本挖掘與信息提取?github

222. NLP任務(wù)示例項(xiàng)目代碼集?github

223. python拼寫檢查庫?github

224. chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹?github

225. 語音質(zhì)量評價指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR)?github

226. 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型?link

227. BERT-NER-Pytorch：三種不同模式的BERT中文NER實(shí)驗(yàn)?github

228. 無道詞典 - 有道詞典的命令行版本，支持英漢互查和在線查詢?github

229. 2019年NLP亮點(diǎn)回顧?download

提取碼: yb6x

230. Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集?github

231. 最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具?github

232. 基于百科知識庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧?github

233. awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取?github

234. LineFlow：面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器?github

235. 中文醫(yī)學(xué)NLP公開資源整理?github

236. MedQuAD：(英文)醫(yī)學(xué)問答數(shù)據(jù)集?github

237. 將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù)?github

238. Transfer Learning in Natural Language Processing (NLP)?youtube

239. 面向語音識別的中文/英文發(fā)音辭典?github

240. Tokenizers：注重性能與多功能性的最先進(jìn)分詞器?github

241. CLUENER 細(xì)粒度命名實(shí)體識別 Fine Grained Named Entity Recognition?github

242. 基于BERT的中文命名實(shí)體識別?github

243. 中文謠言數(shù)據(jù)庫?github

244. NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表?github

大多數(shù)為英文數(shù)據(jù)

245. nlp相關(guān)的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實(shí)體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計(jì)算等，涉及到各種與nlp相關(guān)的算法，基于keras和tensorflow?github

246. Python文本挖掘/NLP實(shí)戰(zhàn)示例?github

247. Blackstone：面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型?github

248. 通過同義詞替換實(shí)現(xiàn)文本“變臉”?github

249. 中文預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model?github

250. albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER?github

251. 基于GPT2的特定主題文本生成/文本增廣?github

252. 開源預(yù)訓(xùn)練語言模型合集?github

253. 多語言句向量包?github

254. 編碼、標(biāo)記和實(shí)現(xiàn)：一種可控高效的文本生成方法?github

255. 英文臟話大列表?github

256. attnvis：GPT2、BERT等transformer語言模型注意力交互可視化?github

257. CoVoST：Facebook發(fā)布的多語種語音-文本翻譯語料庫，包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉(zhuǎn)錄及英文譯文?github

258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ)，提供知識圖譜關(guān)系抽取中文分詞詞性標(biāo)注命名實(shí)體識別情感分析新詞發(fā)現(xiàn) 關(guān)鍵詞文本摘要文本聚類等功能?github

259. 用unet實(shí)現(xiàn)對文檔表格的自動檢測，表格重建?github

260. NLP事件提取文獻(xiàn)資源列表?github

261. 金融領(lǐng)域自然語言處理研究資源大列表?github

262. CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集：搜索所有中文NLP數(shù)據(jù)集，附常用英文NLP數(shù)據(jù)集?github

263. medical_NER - 中文醫(yī)學(xué)知識圖譜命名實(shí)體識別?github

264. (哈佛)講因果推理的免費(fèi)書?pdf

265. 知識圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表?github

266. Forte：靈活強(qiáng)大的自然語言處理pipeline工具集?github

267. Python字符串相似性算法庫?github

268. PyLaia：面向手寫文檔分析的深度學(xué)習(xí)工具包?github

269. TextFooler：針對文本分類/推理的對抗文本生成模塊?github

270. Haystack：靈活、強(qiáng)大的可擴(kuò)展問答(QA)框架?github

271. 中文關(guān)鍵短語抽取工具?github

272. pdf文檔解析相關(guān)工具包

pdf生成
- fdfgen: 能夠自動創(chuàng)建pdf文檔，并填寫信息
pdf表格解析
- pdftabextract: 用于OCR識別后的表格信息解析，很強(qiáng)大
- tabula-py: 直接將pdf中的表格信息轉(zhuǎn)換為pandas的dataframe，有java和python兩種版本代碼
- pdfx: 自動抽取出引用參考文獻(xiàn)，并下載對應(yīng)的pdf文件
- invoice2data: 發(fā)票pdf信息抽取
- camelot: pdf表格解析
- pdfplumber: pdf表格解析
pdf語義分割
- PubLayNet:能夠劃分段落、識別表格、圖片
pdf讀取工具
- PDFMiner：PDFMiner能獲取頁面中文本的準(zhǔn)確位置，以及字體或行等其他信息。它還有一個PDF轉(zhuǎn)換器，可以將PDF文件轉(zhuǎn)換成其他文本格式(如HTML)。還有一個可擴(kuò)展的解析器PDF，可以用于文本分析以外的其他用途。
- PyPDF2：PyPDF 2是一個python PDF庫，能夠分割、合并、裁剪和轉(zhuǎn)換PDF文件的頁面。它還可以向PDF文件中添加自定義數(shù)據(jù)、查看選項(xiàng)和密碼。它可以從PDF檢索文本和元數(shù)據(jù)，還可以將整個文件合并在一起。
- ReportLab：ReportLab能快速創(chuàng)建PDF 文檔。經(jīng)過時間證明的、超好用的開源項(xiàng)目，用于創(chuàng)建復(fù)雜的、數(shù)據(jù)驅(qū)動的PDF文檔和自定義矢量圖形。它是免費(fèi)的，開源的，用Python編寫的。該軟件包每月下載5萬多次，是標(biāo)準(zhǔn)Linux發(fā)行版的一部分，嵌入到許多產(chǎn)品中，并被選中為Wikipedia的打印/導(dǎo)出功能提供動力。

273. 中文詞語相似度計(jì)算方法?gihtub

綜合了同義詞詞林?jǐn)U展版與知網(wǎng)（Hownet）的詞語相似度計(jì)算方法，詞匯覆蓋更多、結(jié)果更準(zhǔn)確。

274. 人民日報(bào)語料庫處理工具集?github

275. stanza:斯坦福團(tuán)隊(duì)NLP工具?github

可處理六十多種語言

276. 一個大規(guī)模醫(yī)療對話數(shù)據(jù)集?github

包含110萬醫(yī)學(xué)咨詢，400萬條醫(yī)患對話

277. 新冠肺炎相關(guān)數(shù)據(jù)

新冠及其他類型肺炎中文醫(yī)療對話數(shù)據(jù)集?github
清華大學(xué)等機(jī)構(gòu)的開放數(shù)據(jù)源（COVID-19）github

278. DGL-KE 圖嵌入表示學(xué)習(xí)算法?github

279. nlp-recipes：微軟出品--自然語言處理最佳實(shí)踐和范例?github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個快速從自然語言文本中提取和識別關(guān)鍵短語的工具?github

281. 使用GAN生成表格數(shù)據(jù)（僅支持英文）?github

282. Google發(fā)布Taskmaster-2自然語言任務(wù)對話數(shù)據(jù)集?github

283. BDCI2019金融負(fù)面信息判定?github

284. 用神經(jīng)網(wǎng)絡(luò)符號推理求解復(fù)雜數(shù)學(xué)方程?github

285. 粵語/英語會話雙語語料庫?github

286. 中文ELECTRA預(yù)訓(xùn)練模型?github

287. 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程?github

288. Parakeet：基于PaddlePaddle的文本-語音合成?github

289. 103976個英語單詞庫（sql版，csv版，Excel版）包?github

290. 《海賊王》知識圖譜?github

291. 法務(wù)智能文獻(xiàn)資源列表?github

292. Datasaur.ai 在線數(shù)據(jù)標(biāo)注工作流管理工具?link

293. (Java)準(zhǔn)確的語音自然語言檢測庫?github

294. 面向各語種/任務(wù)的BERT模型大列表/搜索引擎?link

295. CoVoST：Facebook發(fā)布的多語種語音-文本翻譯語料庫?github

296. 基于預(yù)訓(xùn)練模型的中文關(guān)鍵詞抽取方法?github

297. Fancy-NLP:用于建設(shè)商品畫像的文本知識挖掘工具?github

298. 基于百度webqa與dureader數(shù)據(jù)集訓(xùn)練的Albert Large QA模型?github

總結(jié)

以上是生活随笔為你收集整理的几乎最全的中文NLP资源库的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SEO【总结】by 2019年5月
下一篇： Windows server 2016

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

几乎最全的中文NLP资源库

The Most Powerful NLP-Weapon Arsenal

NLP民工的樂園: 幾乎最全的中文NLP資源庫

總結(jié)