几乎最全的中文NLP资源库
?
?
NLP民工的樂園
The Most Powerful NLP-Weapon Arsenal
NLP民工的樂園: 幾乎最全的中文NLP資源庫
- 詞庫
- 工具包
- 學(xué)習(xí)資料
在入門到熟悉NLP的過程中,用到了很多github上的包,遂整理了一下,分享在這里。
很多包非常有趣,值得收藏,滿足大家的收集癖! 如果覺得有用,請分享并star,謝謝!
長期不定時更新,歡迎watch和fork!
涉及內(nèi)容包括但不限于:中英文敏感詞、語言檢測、中外手機(jī)/電話歸屬地/運(yùn)營商查詢、名字推斷性別、手機(jī)號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞匯情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉(zhuǎn)換、英文模擬中文發(fā)音、汪峰歌詞生成器、職業(yè)名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續(xù)英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財(cái)經(jīng)詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫(yī)學(xué)詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數(shù)據(jù)、百度中文問答數(shù)據(jù)集、句子相似度匹配算法集合、bert資源、文本生成&摘要相關(guān)工具、cocoNLP信息抽取工具、國內(nèi)電話號碼正則匹配、清華大學(xué)XLORE:中英文跨語言百科知識圖譜、清華大學(xué)人工智能技術(shù)系列報(bào)告、自然語言生成、NLU太難了系列、自動對聯(lián)數(shù)據(jù)及機(jī)器人、用戶名黑名單列表、罪名法務(wù)名詞及分類模型、微信公眾號語料、cs224n深度學(xué)習(xí)自然語言處理課程、中文手寫漢字識別、中文自然語言處理 語料/數(shù)據(jù)集、變量命名神器、分詞語料庫+代碼、任務(wù)型對話英文數(shù)據(jù)集、ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識別系統(tǒng)、笑聲檢測器、Microsoft多語言數(shù)字/單位/如日期時間識別包、中華新華字典數(shù)據(jù)庫及api(包括常用歇后語、成語、詞語和漢字)、文檔圖譜自動生成、SpaCy 中文模型、Common Voice語音識別數(shù)據(jù)集新版、神經(jīng)網(wǎng)絡(luò)關(guān)系抽取、基于bert的命名實(shí)體識別、關(guān)鍵詞(Keyphrase)抽取包pke、基于醫(yī)療領(lǐng)域知識圖譜的問答系統(tǒng)、基于依存句法與語義角色標(biāo)注的事件三元組抽取、依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù)、cnocr:用來做中文OCR的Python3包、中文人物關(guān)系知識圖譜項(xiàng)目、中文nlp競賽項(xiàng)目及代碼匯總、中文字符數(shù)據(jù)、speech-aligner: 從“人聲語音”及其“語言文本”產(chǎn)生音素級別時間對齊標(biāo)注的工具、AmpliGraph: 知識圖譜表示學(xué)習(xí)(Python)庫:知識圖譜概念鏈接預(yù)測、Scattertext 文本可視化(python)、語言/知識表示工具:BERT & ERNIE、中文對比英文自然語言處理NLP的區(qū)別綜述、Synonyms中文近義詞工具包、HarvestText領(lǐng)域自適應(yīng)文本挖掘工具(新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等)、word2word:(Python)方便易用的多語言詞-詞對集:62種語言/3,564個多語言對、語音識別語料生成工具:從具有音頻/字幕的在線視頻創(chuàng)建自動語音識別(ASR)語料庫、構(gòu)建醫(yī)療實(shí)體識別的模型(包含詞典和語料標(biāo)注)、單文檔非監(jiān)督的關(guān)鍵詞抽取、Kashgari中使用gpt-2語言模型、開源的金融投資數(shù)據(jù)提取工具、文本自動摘要庫TextTeaser: 僅支持英文、人民日報(bào)語料處理工具集、一些關(guān)于自然語言的基本模型、基于14W歌曲知識庫的問答嘗試--功能包括歌詞接龍and已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答、基于Siamese bilstm模型的相似句子判定模型并提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集、用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動生成評論、用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼、LitBank:NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料、百度開源的基準(zhǔn)信息抽取系統(tǒng)、虛假新聞數(shù)據(jù)集、Facebook: LAMA語言模型分析,提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口、CommonsenseQA:面向常識的英文QA挑戰(zhàn)、中文知識圖譜資料、數(shù)據(jù)及工具、各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT、自然語言生成SQL語句(英文)、中文NLP數(shù)據(jù)增強(qiáng)(EDA)工具、英文NLP數(shù)據(jù)增強(qiáng)工具 、基于醫(yī)藥知識圖譜的智能問答系統(tǒng)、京東商品知識圖譜、基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目、基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取、語音情感分析、中文ULMFiT-情感分析-文本分類-語料及模型、一個拍照做題程序、世界各國大規(guī)模人名庫、一個利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人、中文聊天機(jī)器人seqGAN、省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注、教育行業(yè)新聞?wù)Z料庫包含自動文摘功能、開放了對話機(jī)器人-知識圖譜-語義理解-自然語言處理工具及數(shù)據(jù)、中文知識圖譜:基于百度百科中文頁面-抽取三元組信息-構(gòu)建中文知識圖譜、masr: 中文語音識別-提供預(yù)訓(xùn)練模型-高識別率、Python音頻數(shù)據(jù)增廣庫、中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù)、ConvLab:開源多域端到端對話系統(tǒng)平臺、中文自然語言處理數(shù)據(jù)集、基于最新版本rasa搭建的對話系統(tǒng)、基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取、一個小型的證券知識圖譜/知識庫、復(fù)盤所有NLP比賽的TOP方案、OpenCLaP:多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫、UER:基于不同語料+編碼器+目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫、中文自然語言處理向量合集、基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人、g2pC:基于上下文的漢語讀音自動標(biāo)記模塊、Zincbase 知識圖譜構(gòu)建工具包、詩歌質(zhì)量評價/細(xì)粒度情感詩歌語料庫、快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」、百度知道問答語料庫、基于知識圖譜的問答系統(tǒng)、jieba_fast 加速版的jieba、正則表達(dá)式教程、中文閱讀理解數(shù)據(jù)集、基于BERT等最新語言模型的抽取式摘要提取、Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南、知識圖譜深度學(xué)習(xí)相關(guān)資料整理、維基大規(guī)模平行文本語料、StanfordNLP 0.2.0:純Python版自然語言處理包、NeuralNLP-NeuralClassifier:騰訊開源深度學(xué)習(xí)文本分類工具、端到端的封閉域?qū)υ捪到y(tǒng)、中文命名實(shí)體識別:NeuroNER vs. BertNER、新聞事件線索抽取、2019年百度的三元組抽取比賽:“科學(xué)空間隊(duì)”源碼、基于依存句法的開放域文本知識三元組抽取和知識庫構(gòu)建、中文的GPT2訓(xùn)練代碼、ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)NLP面試中常考到的知識點(diǎn)和代碼實(shí)現(xiàn)、nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查、XLM:Facebook的跨語言預(yù)訓(xùn)練語言模型、用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識圖譜百度百科人物詞條屬性抽取、中文自然語言處理相關(guān)的開放任務(wù)-數(shù)據(jù)集-當(dāng)前最佳結(jié)果、CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯(lián)系統(tǒng)、抽象知識圖譜、MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目、brat rapid annotation tool: 序列標(biāo)注工具、大規(guī)模中文知識圖譜數(shù)據(jù):1.4億實(shí)體、數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果、allennlp閱讀理解:支持多種數(shù)據(jù)和模型、PDF表格數(shù)據(jù)提取工具 、 Graphbrain:AI開源軟件庫和科研工具,目的是促進(jìn)自動意義提取和文本理解以及知識的探索和推斷、簡歷自動篩選系統(tǒng)、基于命名實(shí)體識別的簡歷自動摘要、中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜、樹洞 OCR 文字識別 、從包含表格的掃描圖片中識別表格和文字、語聲遷移、Python口語自然語言處理工具集(英文)、 similarity:相似度計(jì)算工具包,java編寫、海量中文預(yù)訓(xùn)練ALBERT模型 、Transformers 2.0 、基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng) 、Poplar:網(wǎng)頁版自然語言標(biāo)注工具、圖片文字去除,可用于漫畫翻譯 、186種語言的數(shù)字叫法庫、Amazon發(fā)布基于知識的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集 、中文文本糾錯模塊代碼、繁簡體轉(zhuǎn)換 、 Python實(shí)現(xiàn)的多種文本可讀性評價指標(biāo)、類似于人名/地名/組織機(jī)構(gòu)名的命名體識別數(shù)據(jù)集 、東南大學(xué)《知識圖譜》研究生課程(資料)、. 英文拼寫檢查庫 、 wwsearch是企業(yè)微信后臺自研的全文檢索引擎、CHAMELEON:深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu) 、 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思、DocSearch:免費(fèi)文檔搜索引擎、 LIDA:輕量交互式對話標(biāo)注工具 、aili - the fastest in-memory index in the East 東半球最快并發(fā)索引 、知識圖譜車音工作項(xiàng)目、自然語言生成資源大全 、中日韓分詞庫mecab的Python接口庫、中文文本摘要/關(guān)鍵詞提取、漢字字符特征提取器 (featurizer),提取漢字的特征(發(fā)音特征、字形特征)用做深度學(xué)習(xí)的特征、中文生成任務(wù)基準(zhǔn)測評 、中文縮寫數(shù)據(jù)集、中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜、PySS3:面向可解釋AI的SS3文本分類器機(jī)器可視化工具 、中文NLP數(shù)據(jù)集列表、COPE - 格律詩編輯程序、doccano:基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具 、PreNLP:自然語言預(yù)處理庫、簡單的簡歷解析器,用來從簡歷中提取關(guān)鍵信息、用于中文閑聊的GPT2模型:GPT2-chitchat、基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程 、詞語拼音數(shù)據(jù)、高效模糊搜索工具、NLP數(shù)據(jù)增廣資源集、微軟對話機(jī)器人框架 、 GitHub Typo Corpus:大規(guī)模GitHub多語言拼寫錯誤/語法錯誤數(shù)據(jù)集、TextCluster:短文本聚類預(yù)處理模塊 Short text cluster、面向語音識別的中文文本規(guī)范化、BLINK:最先進(jìn)的實(shí)體鏈接庫、BertPunc:基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型、Tokenizer:快速、可定制的文本詞條化庫、中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫、排行榜、spaCy 醫(yī)學(xué)文本挖掘與信息提取 、 NLP任務(wù)示例項(xiàng)目代碼集、 python拼寫檢查庫、chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹、語音質(zhì)量評價指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR)、 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型 、BERT-NER-Pytorch:三種不同模式的BERT中文NER實(shí)驗(yàn)、無道詞典 - 有道詞典的命令行版本,支持英漢互查和在線查詢、2019年NLP亮點(diǎn)回顧、 Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集 、最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具、 基于百科知識庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧、awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取、LineFlow:面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器、中文醫(yī)學(xué)NLP公開資源整理 、MedQuAD:(英文)醫(yī)學(xué)問答數(shù)據(jù)集、將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù)、Transfer Learning in Natural Language Processing (NLP) 、面向語音識別的中文/英文發(fā)音辭典、Tokenizers:注重性能與多功能性的最先進(jìn)分詞器、CLUENER 細(xì)粒度命名實(shí)體識別 Fine Grained Named Entity Recognition、 基于BERT的中文命名實(shí)體識別、中文謠言數(shù)據(jù)庫、NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表、nlp相關(guān)的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實(shí)體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計(jì)算等,涉及到各種與nlp相關(guān)的算法,基于keras和tensorflow 、Python文本挖掘/NLP實(shí)戰(zhàn)示例、 Blackstone:面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型通過同義詞替換實(shí)現(xiàn)文本“變臉” 、中文 預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model 、albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER 、基于GPT2的特定主題文本生成/文本增廣、開源預(yù)訓(xùn)練語言模型合集、多語言句向量包、編碼、標(biāo)記和實(shí)現(xiàn):一種可控高效的文本生成方法、 英文臟話大列表 、attnvis:GPT2、BERT等transformer語言模型注意力交互可視化、CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫,包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉(zhuǎn)錄及英文譯文、Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ),提供知識圖譜關(guān)系抽取 中文分詞 詞性標(biāo)注 命名實(shí)體識別 情感分析 新詞發(fā)現(xiàn) 關(guān)鍵詞 文本摘要 文本聚類等功能、用unet實(shí)現(xiàn)對文檔表格的自動檢測,表格重建、NLP事件提取文獻(xiàn)資源列表 、 金融領(lǐng)域自然語言處理研究資源大列表、CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集:搜索所有中文NLP數(shù)據(jù)集,附常用英文NLP數(shù)據(jù)集 、medical_NER - 中文醫(yī)學(xué)知識圖譜命名實(shí)體識別 、(哈佛)講因果推理的免費(fèi)書、知識圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表、Forte:靈活強(qiáng)大的自然語言處理pipeline工具集 、Python字符串相似性算法庫、PyLaia:面向手寫文檔分析的深度學(xué)習(xí)工具包、TextFooler:針對文本分類/推理的對抗文本生成模塊、Haystack:靈活、強(qiáng)大的可擴(kuò)展問答(QA)框架、中文關(guān)鍵短語抽取工具。
1. textfilter: 中英文敏感詞過濾?observerss/textfilter
>>> f = DFAFilter()>>> f.add("sexy")>>> f.filter("hello sexy baby")hello **** baby敏感詞包括政治、臟話等話題詞匯。其原理主要是基于詞典的查找(項(xiàng)目中的keyword文件),內(nèi)容很勁爆。。。
2. langid:97種語言檢測?https://github.com/saffsd/langid.py
pip install langid
>>> import langid >>> langid.classify("This is a test") ('en', -54.41310358047485)3. langdetect:另一個語言檢測https://code.google.com/archive/p/language-detection/
pip install langdetect
from langdetect import detect from langdetect import detect_langss1 = "本篇博客主要介紹兩款語言探測工具,用于區(qū)分文本到底是什么語言," s2 = 'We are pleased to introduce today a new technology' print(detect(s1)) print(detect(s2)) print(detect_langs(s3)) # detect_langs()輸出探測出的所有語言類型及其所占的比例輸出結(jié)果如下: 注:語言類型主要參考的是ISO 639-1語言編碼標(biāo)準(zhǔn),詳見ISO 639-1百度百科
跟上一個語言檢測比較,準(zhǔn)確率低,效率高。
4. phone 中國手機(jī)歸屬地查詢:?ls0f/phone
已集成到 python package?cocoNLP中,歡迎試用
from phone import Phone p = Phone() p.find(18100065143) #return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}支持號段: 13*,15*,18*,14[5,7],17[0,6,7,8]
記錄條數(shù): 360569 (updated:2017年4月)
作者提供了數(shù)據(jù)phone.dat?方便非python用戶Load數(shù)據(jù)。
5. phone國際手機(jī)、電話歸屬地查詢:AfterShip/phone
npm install phone
import phone from 'phone'; phone('+852 6569-8900'); // return ['+85265698900', 'HKG'] phone('(817) 569-8900'); // return ['+18175698900, 'USA']6. ngender 根據(jù)名字判斷性別:observerss/ngender?基于樸素貝葉斯計(jì)算的概率
pip install ngender
>>> import ngender >>> ngender.guess('趙本山') ('male', 0.9836229687547046) >>> ngender.guess('宋丹丹') ('female', 0.9759486128949907)7. 抽取email的正則表達(dá)式
已集成到 python package?cocoNLP中,歡迎試用
email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$' emails = re.findall(email_pattern, text, flags=0)8. 抽取phone_number的正則表達(dá)式
已集成到 python package?cocoNLP中,歡迎試用
cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$' phoneNumbers = re.findall(cellphone_pattern, text, flags=0)9. 抽取身份證號的正則表達(dá)式
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$' IDs = re.findall(IDCards_pattern, text, flags=0)10. 人名語料庫:?wainshine/Chinese-Names-Corpus
人名抽取功能 python package?cocoNLP,歡迎試用
中文(現(xiàn)代、古代)名字、日文名字、中文的姓和名、稱呼(大姨媽、小姨媽等)、英文->中文名字(李約翰)、成語詞典(可用于中文分詞、姓名識別)
11. 中文縮寫庫:github
全國人大: 全國/n 人民/n 代表大會/n 中國: 中華人民共和國/ns 女網(wǎng)賽: 女子/n 網(wǎng)球/n 比賽/vn12. 漢語拆字詞典:kfcd/chaizi
漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥13. 詞匯情感值:rainarch/SentiBridge
山泉水 充沛 0.400704566541 0.370067395878 視野 寬廣 0.305762728932 0.325320747491 大峽谷 驚險 0.312137906517 0.37859495728114. 中文詞庫、停用詞、敏感詞?dongxiexidian/Chinese
此package的敏感詞庫分類更細(xì):
反動詞庫,?敏感詞庫表統(tǒng)計(jì),?暴恐詞庫,?民生詞庫,?色情詞庫
15. 漢字轉(zhuǎn)拼音:mozillazg/python-pinyin
文本糾錯會用到
16. 中文繁簡體互轉(zhuǎn):skydark/nstools
17. 英文模擬中文發(fā)音引擎?funny chinese text to speech enginee:tinyfool/ChineseWithEnglish
say wo i ni #說:我愛你相當(dāng)于用英文音標(biāo),模擬中文發(fā)音。
18. 汪峰歌詞生成器:phunterlau/wangfeng-rnn
我在這里中的夜里 就像一場是一種生命的意旪 就像我的生活變得在我一樣 可我們這是一個知道 我只是一天你會怎嗎19. 同義詞庫、反義詞庫、否定詞庫:guotong1988/chinese_dictionary
20. 無空格英文串分割、抽取單詞:wordninja
>>> import wordninja >>> wordninja.split('derekanderson') ['derek', 'anderson'] >>> wordninja.split('imateapot') ['im', 'a', 'teapot']21. IP地址正則表達(dá)式:
(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)22. 騰訊QQ號正則表達(dá)式:
[1-9]([0-9]{5,11})23. 國內(nèi)固話號碼正則表達(dá)式:
[0-9-()()]{7,18}24. 用戶名正則表達(dá)式:
[A-Za-z0-9_\-\u4e00-\u9fa5]+25. 汽車品牌、汽車零件相關(guān)詞匯:
見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)26. 時間抽取:
已集成到 python package?cocoNLP中,歡迎試用
在2016年6月7日9:44執(zhí)行測試,結(jié)果如下Hi,all。下周一下午三點(diǎn)開會>> 2016-06-13 15:00:00-false周一開會>> 2016-06-13 00:00:00-true下下周一開會>> 2016-06-20 00:00:00-truejava version
python version
27. 各種中文詞向量:?github repo
中文詞向量大全
28. 公司名字大全:?github repo
29. 古詩詞庫:?github repo?更全的古詩詞庫
30. THU整理的詞庫:?link
已整理到本repo的data文件夾中.
IT詞庫、財(cái)經(jīng)詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫(yī)學(xué)詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫31. 中文聊天語料?link
該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料32. 中文謠言數(shù)據(jù):?github
該數(shù)據(jù)文件中,每一行為一條json格式的謠言數(shù)據(jù),字段釋義如下:rumorCode: 該條謠言的唯一編碼,可以通過該編碼直接訪問該謠言舉報(bào)頁面。 title: 該條謠言被舉報(bào)的標(biāo)題內(nèi)容 informerName: 舉報(bào)者微博名稱 informerUrl: 舉報(bào)者微博鏈接 rumormongerName: 發(fā)布謠言者的微博名稱 rumormongerUr: 發(fā)布謠言者的微博鏈接 rumorText: 謠言內(nèi)容 visitTimes: 該謠言被訪問次數(shù) result: 該謠言審查結(jié)果 publishTime: 該謠言被舉報(bào)時間33. 情感波動分析:github
詞庫已整理到本repo的data文件夾中.
本repo項(xiàng)目是一個通過與人對話獲得其情感值波動圖譜, 內(nèi)用詞庫在data文件夾中.34. 中文問答數(shù)據(jù)集:鏈接?提取碼: 2dva
35. 句子、QA相似度匹配:MatchZoo?github
文本相似度匹配算法的集合,包含多個深度學(xué)習(xí)的方法,值得嘗試。
36. bert資源:
- bert論文中文翻譯:?link
-
bert原作者的slides:?link?提取碼: iarj
-
文本分類實(shí)踐:?github
-
bert tutorial文本分類教程:?github
-
bert pytorch實(shí)現(xiàn):?github
-
bert用于中文命名實(shí)體識別 tensorflow版本:?github
-
BERT生成句向量,BERT做文本分類、文本相似度計(jì)算github
-
bert 基于 keras 的封裝分類標(biāo)注框架 Kashgari,幾分鐘即可搭建一個分類或者序列標(biāo)注模型:?github
-
bert、ELMO的圖解:?github
-
BERT: Pre-trained models and downstream applications:?github
37. Texar - Toolkit for Text Generation and Beyond:?github
- 基于Tensorflow的開源工具包,旨在支持廣泛的機(jī)器學(xué)習(xí),特別是文本生成任務(wù),如機(jī)器翻譯、對話、摘要、內(nèi)容處置、語言建模等
38. 中文事件抽取:?github
- 中文復(fù)合事件抽取,包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件抽取,并形成事理圖譜。
39. cocoNLP:?github
人名、地址、郵箱、手機(jī)號、手機(jī)歸屬地 等信息的抽取,rake短語抽取算法。
pip install cocoNLP
>>> from cocoNLP.extractor import extractor>>> ex = extractor()>>> text = '急尋特朗普,男孩,于2018年11月27號11時在陜西省安康市漢濱區(qū)走失。丟失發(fā)型短發(fā),...如有線索,請迅速與警方聯(lián)系:18100065143,132-6156-2938,baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'# 抽取郵箱 >>> emails = ex.extract_email(text) >>> print(emails)['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn'] # 抽取手機(jī)號 >>> cellphones = ex.extract_cellphone(text,nation='CHN') >>> print(cellphones)['18100065143', '13261562938'] # 抽取手機(jī)歸屬地、運(yùn)營商 >>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones] >>> print(cell_locs)cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}] # 抽取地址信息 >>> locations = ex.extract_locations(text) >>> print(locations) ['陜西省安康市漢濱區(qū)', '安康市漢濱區(qū)', '漢濱區(qū)'] # 抽取時間點(diǎn) >>> times = ex.extract_time(text) >>> print(times) time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"} # 抽取人名 >>> name = ex.extract_name(text) >>> print(name) 特朗普40. 國內(nèi)電話號碼正則匹配(三大運(yùn)營商+虛擬等):?github
41. 清華大學(xué)XLORE:中英文跨語言百科知識圖譜:?link
上述鏈接中包含了所有實(shí)體及關(guān)系的TTL文件,更多數(shù)據(jù)將在近期發(fā)布。 概念,實(shí)例,屬性和上下位關(guān)系數(shù)目
| 概念數(shù)量 | 32,009 | 150,241 | 326,518 | 508,768 |
| 實(shí)例數(shù)量 | 1,629,591 | 640,622 | 1,235,178 | 3,505,391 |
| 屬性數(shù)量 | 157,370 | 45,190 | 26,723 | 229.283 |
| InstanceOf | 7,584,931 | 1,449,925 | 3,032,515 | 12,067,371 |
| SubClassOf | 2,784 | 191,577 | 555,538 | 749,899 |
跨語言連接(概念/實(shí)例)
| 百度 | - | 10,216/336,890 | 4,846/303,108 |
| 中文維基 | 10,216/336,890 | - | 28,921/454,579 |
| 英文維基 | 4,846/303,108 | 28,921/454,579 | - |
42. 清華大學(xué)人工智能技術(shù)系列報(bào)告:?link
每年會出AI領(lǐng)域相關(guān)的報(bào)告,內(nèi)容包含
- 自然語言處理?link
- 知識圖譜?link
- 數(shù)據(jù)挖掘?link
- 自動駕駛?link
- 機(jī)器翻譯?link
- 區(qū)塊鏈?link
- 機(jī)器人?link
- 計(jì)算機(jī)圖形學(xué)?link
- 3D打印?link
- 人臉識別?link
- 人工智能芯片?link
- 等等
43.自然語言生成方面:
- Ehud Reiter教授的博客?北大萬小軍教授強(qiáng)力推薦,該博客對NLG技術(shù)、評價與應(yīng)用進(jìn)行了深入的探討與反思。
- 文本生成相關(guān)資源大列表
- 自然語言生成:讓機(jī)器掌握自動創(chuàng)作的本領(lǐng) - 開放域?qū)υ捝杉霸谖④浶”械膶?shí)踐
- 文本生成控制
- 自然語言生成相關(guān)資源大列表
44.:?jieba和hanlp就不必介紹了吧。
45.NLP太難了系列:?github
- 來到楊過曾經(jīng)生活過的地方,小龍女動情地說:“我也想過過過兒過過的生活。” ???
- 來到兒子等校車的地方,鄧超對孫儷說:“我也想等等等等等過的那輛車。”
- 趙敏說:我也想控忌忌己不想無忌。
- 你也想犯范范范瑋琪犯過的錯嗎
- 對敘打擊是一次性行為?
46.自動對聯(lián)數(shù)據(jù)及機(jī)器人:
70萬對聯(lián)數(shù)據(jù) link
代碼 link
| 殷勤怕負(fù)三春意 | 瀟灑難書一字愁 |
| 如此清秋何吝酒 | 這般明月不須錢 |
47.用戶名黑名單列表:?github?包含了用戶名禁用列表,比如:?link
administrator administration autoconfig autodiscover broadcasthost domain editor guest host hostmaster info keybase.txt localdomain localhost master mail mail0 mail148.罪名法務(wù)名詞及分類模型:?github
包含856項(xiàng)罪名知識圖譜, 基于280萬罪名訓(xùn)練庫的罪名預(yù)測,基于20W法務(wù)問答對的13類問題分類與法律資訊問答功能49.微信公眾號語料:?github
3G語料,包含部分網(wǎng)絡(luò)抓取的微信公眾號的文章,已經(jīng)去除HTML,只包含了純文本。每行一篇,是JSON格式,name是微信公眾號名字,account是微信公眾號ID,title是題目,content是正文
50.cs224n深度學(xué)習(xí)自然語言處理課程:link
- 課程中模型的pytorch實(shí)現(xiàn)?link
- 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程?link
51.中文手寫漢字識別:github
52.中文自然語言處理 語料/數(shù)據(jù)集:github?競品:THUOCL(THU Open Chinese Lexicon)中文詞庫
53.變量命名神器:github?link
54.分詞語料庫+代碼:百度網(wǎng)盤鏈接
- 提取碼: pea6
- keras實(shí)現(xiàn)的基于Bi-LSTM + CRF的中文分詞+詞性標(biāo)注
- 基于Universal Transformer + CRF 的中文分詞和詞性標(biāo)注
- 快速神經(jīng)網(wǎng)絡(luò)分詞包 java version
55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein:?link
56. 任務(wù)型對話英文數(shù)據(jù)集:?github
【最全任務(wù)型對話數(shù)據(jù)集】主要介紹了一份任務(wù)型對話數(shù)據(jù)集大全,這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對話領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外,為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò),我們以Leaderboard的形式給出了幾個數(shù)據(jù)集上的State-of-the-art實(shí)驗(yàn)結(jié)果。
57. ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識別系統(tǒng):?github
-
Data Sets 數(shù)據(jù)集
-
清華大學(xué)THCHS30中文語音數(shù)據(jù)集
data_thchs30.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
test-noise.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
resource.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
-
Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
-
AIShell-1 開源版數(shù)據(jù)集
data_aishell.tgz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
注:數(shù)據(jù)集解壓方法
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done-
Primewords Chinese Corpus Set 1
primewords_md_2018_set1.tar.gz?OpenSLR國內(nèi)鏡像?OpenSLR國外鏡像
-
58. 笑聲檢測器:?github
59. Microsoft多語言數(shù)字/單位/如日期時間識別包:?[github](https://github.com/Microsoft/Recognizers-Text
60. chinese-xinhua 中華新華字典數(shù)據(jù)庫及api,包括常用歇后語、成語、詞語和漢字?github
61. 文檔圖譜自動生成?github
- TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。輸入一篇文檔,將文檔進(jìn)行關(guān)鍵信息提取,進(jìn)行結(jié)構(gòu)化,并最終組織成圖譜組織形式,形成對文章語義信息的圖譜化展示
62. SpaCy 中文模型?github
- 包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的,如果要適配中文,可能需要使用spacy中文模型。
63. Common Voice語音識別數(shù)據(jù)集新版?link
- 包括來自42,000名貢獻(xiàn)者超過1,400小時的語音樣本,涵github
64. 神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 pytorch?github
- 暫不支持中文
65. 基于bert的命名實(shí)體識別 pytorch?github
- 暫不支持中文
66. 關(guān)鍵詞(Keyphrase)抽取包 pke?github
pke: an open source python-based keyphrase extraction toolkit
- 暫不支持中文,我于近期對其進(jìn)行修改,使其適配中文。 請關(guān)注我的github動態(tài),謝謝!
67. 基于醫(yī)療領(lǐng)域知識圖譜的問答系統(tǒng)?github
- 該repo參考了github
68. 基于依存句法與語義角色標(biāo)注的事件三元組抽取?github
69. 依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù)?by 蘇州大學(xué)漢語依存樹庫(SUCDT)?Homepage?數(shù)據(jù)下載詳見homepage底部,需要簽署協(xié)議,需要郵件接收解壓密碼。
70. cnocr:用來做中文OCR的Python3包,自帶了訓(xùn)練好的識別模型?github
71. 中文人物關(guān)系知識圖譜項(xiàng)目?github
- 中文人物關(guān)系圖譜構(gòu)建
- 基于知識庫的數(shù)據(jù)回標(biāo)
- 基于遠(yuǎn)程監(jiān)督與bootstrapping方法的人物關(guān)系抽取
- 基于知識圖譜的知識問答等應(yīng)用
72. 中文nlp競賽項(xiàng)目及代碼匯總?github
- 文本生成、文本摘要:Byte Cup 2018 國際機(jī)器學(xué)習(xí)競賽
- 知識圖譜:瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識圖譜大賽
- 視頻識別 問答:2018之江杯全球人工智能大賽?:視頻識別&問答
73. 中文字符數(shù)據(jù)?github
- 簡/繁體漢字筆順
- 矢量筆畫
74. speech-aligner: 從“人聲語音”及其“語言文本”,產(chǎn)生音素級別時間對齊標(biāo)注的工具?github
75. AmpliGraph: 知識圖譜表示學(xué)習(xí)(Python)庫:知識圖譜概念鏈接預(yù)測?github
- 埃森哲出品,目前尚不支持中文
76. Scattertext 文本可視化(python)?github
- 很好用的工具包,簡單修改后可支持中文
- 能否分析出某個類別的文本與其他文本的用詞差異
77. 語言/知識表示工具:BERT & ERNIE?github
- 百度出品,ERNIE也號稱在多項(xiàng)nlp任務(wù)中擊敗了bert
78. 中文對比英文自然語言處理NLP的區(qū)別綜述?link
79. Synonyms中文近義詞工具包?github
- Synonyms 中文近義詞工具包,可以用于自然語言理解的很多任務(wù):文本對齊,推薦算法,相似度計(jì)算,語義偏移,關(guān)鍵字提取,概念提取,自動摘要,搜索引擎等
80. HarvestText領(lǐng)域自適應(yīng)文本挖掘工具(新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等)?github
81. word2word:(Python)方便易用的多語言詞-詞對集:62種語言/3,564個多語言對?github
82. 語音識別語料生成工具:從具有音頻/字幕的在線視頻創(chuàng)建自動語音識別(ASR)語料庫?github
83. ASR語音大辭典/詞典:?github
84. 構(gòu)建醫(yī)療實(shí)體識別的模型,包含詞典和語料標(biāo)注,基于python:?github
85. 單文檔非監(jiān)督的關(guān)鍵詞抽取:?github
86. Kashgari中使用gpt-2語言模型?github
87. 開源的金融投資數(shù)據(jù)提取工具?github
88. 文本自動摘要庫TextTeaser: 僅支持英文?github
89. 人民日報(bào)語料處理工具集?github
90. 一些關(guān)于自然語言的基本模型?github
91. 基于14W歌曲知識庫的問答嘗試,功能包括歌詞接龍,已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答?github
92. 基于Siamese bilstm模型的相似句子判定模型,提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集?github
- 提供了10萬個訓(xùn)練樣本
93. 用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動生成評論?github
94. 用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼?github
95. LitBank:NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料?github
96. 百度開源的基準(zhǔn)信息抽取系統(tǒng)?github
97. 虛假新聞數(shù)據(jù)集 fake news corpus?github
98. Facebook: LAMA語言模型分析,提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口?github
99. CommonsenseQA:面向常識的英文QA挑戰(zhàn)?link
100. 中文知識圖譜資料、數(shù)據(jù)及工具?github
101. 各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT?github
102. 自然語言生成SQL語句(英文)?github
103. 中文NLP數(shù)據(jù)增強(qiáng)(EDA)工具?github
- ?英文NLP數(shù)據(jù)增強(qiáng)工具?github
104. 基于醫(yī)藥知識圖譜的智能問答系統(tǒng)?github
105. 京東商品知識圖譜?github
- 基于京東網(wǎng)站的1300種商品上下級概念,約10萬商品品牌,約65萬品牌銷售關(guān)系,商品描述維度等知識庫,基于該知識庫可以支持商品屬性庫構(gòu)建,商品銷售問答,品牌物品生產(chǎn)等知識查詢服務(wù),也可用于情感分析等下游應(yīng)用.
106. 基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目?github
- 基于mongodb存儲的軍事領(lǐng)域知識圖譜問答項(xiàng)目,包括飛行器、太空裝備等8大類,100余小類,共計(jì)5800項(xiàng)的軍事武器知識庫,該項(xiàng)目不使用圖數(shù)據(jù)庫進(jìn)行存儲,通過jieba進(jìn)行問句解析,問句實(shí)體項(xiàng)識別,基于查詢模板完成多類問題的查詢,主要是提供一種工業(yè)界的問答思想demo。
107. 基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取?github
108. 語音情感分析?github
109. 中文ULMFiT 情感分析 文本分類 語料及模型?github
110. 一個拍照做題程序。輸入一張包含數(shù)學(xué)計(jì)算題的圖片,輸出識別出的數(shù)學(xué)計(jì)算式以及計(jì)算結(jié)果?github
111. 世界各國大規(guī)模人名庫?github
112. 一個利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人?github
- 使用了青云語料10萬語料,本repo中也有該語料的鏈接
113. 中文聊天機(jī)器人, 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人,可以用于智能客服、在線問答、智能聊天等場景?github
- 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人,可以用于智能客服、在線問答、智能聊天等場景。加入seqGAN版本。
- repo中提供了一份質(zhì)量不太高的語料
114. 省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注?github
- 國家統(tǒng)計(jì)局中的省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注,高德地圖的坐標(biāo)和行政區(qū)域邊界范圍,在瀏覽器里面運(yùn)行js代碼采集的2019年發(fā)布的最新數(shù)據(jù),含采集源碼,提供csv格式數(shù)據(jù),支持csv轉(zhuǎn)成省市區(qū)多級聯(lián)動js代碼
- 坐標(biāo)、邊界范圍、名稱、拼音、行政區(qū)等多級地址
115. 教育行業(yè)新聞 自動文摘 語料庫?github
116. 開放了對話機(jī)器人、知識圖譜、語義理解、自然語言處理工具及數(shù)據(jù)?github
- 另一個qa對的機(jī)器人?Amodel-for-Retrivalchatbot - 客服機(jī)器人,Chinese Retreival chatbot(中文檢索式機(jī)器人)
117. 中文知識圖譜:基于百度百科中文頁面,抽取三元組信息,構(gòu)建中文知識圖譜?github
118. masr: 中文語音識別,提供預(yù)訓(xùn)練模型,高識別率?github
119. Python音頻數(shù)據(jù)增廣庫?github
120. 中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù)?github
- DRCD數(shù)據(jù)集由中國臺灣臺達(dá)研究院發(fā)布,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。
- CMRC 2018數(shù)據(jù)集是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)。根據(jù)給定問題,系統(tǒng)需要從篇章中抽取出片段作為答案,形式與SQuAD相同。
121. ConvLab:開源多域端到端對話系統(tǒng)平臺?github
122. 中文自然語言處理數(shù)據(jù)集?github
123. 基于最新版本rasa搭建的對話系統(tǒng)?github
124. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取?github
- Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取,2019語言與智能技術(shù)競賽信息抽取任務(wù)解決方案。Schema based Knowledge Extraction, SKE 2019
125. 一個小型的證券知識圖譜/知識庫?github
126. 復(fù)盤所有NLP比賽的TOP方案?github
127. OpenCLaP:多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫?github?包含如下語言模型及百度百科數(shù)據(jù)
- 民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
- 刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
- 百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB
128. UER:基于不同語料、編碼器、目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫(包括BERT、GPT、ELMO等)?github
- 基于PyTorch的預(yù)訓(xùn)練模型框架,支持對編碼器,目標(biāo)任務(wù)等進(jìn)行任意的組合,從而復(fù)現(xiàn)已有的預(yù)訓(xùn)練模型,或在已有的預(yù)訓(xùn)練模型上進(jìn)一步改進(jìn)。基于UER訓(xùn)練了不同性質(zhì)的預(yù)訓(xùn)練模型(不同語料、編碼器、目標(biāo)任務(wù)),構(gòu)成了中文預(yù)訓(xùn)練模型倉庫,適用于不同的場景。
129. 中文自然語言處理向量合集?github
- 包括字向量,拼音向量,詞向量,詞性向量,依存關(guān)系向量.共5種類型的向量
130. 基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人?github
- 其中的主要模塊有信息抽取、NLU、NLG、知識圖譜等,并且利用Django整合了前端展示,目前已經(jīng)封裝了nlp和kg的restful接口
131. g2pC:基于上下文的漢語讀音自動標(biāo)記模塊?github
132. Zincbase 知識圖譜構(gòu)建工具包?github
133. 詩歌質(zhì)量評價/細(xì)粒度情感詩歌語料庫?github
134. 快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」?github
- 中文、阿拉伯?dāng)?shù)字互轉(zhuǎn)
- 中文與阿拉伯?dāng)?shù)字混合的情況,在開發(fā)中
135. 百度知道問答語料庫?github
- 超過580萬的問題,938萬的答案,5800個分類標(biāo)簽。基于該問答語料庫,可支持多種應(yīng)用,如閑聊問答,邏輯挖掘
136. 基于知識圖譜的問答系統(tǒng)?github
- BERT做命名實(shí)體識別和句子相似度,分為online和outline模式
137. jieba_fast 加速版的jieba?github
- 使用cpython重寫了jieba分詞庫中計(jì)算DAG和HMM中的vitrebi函數(shù),速度得到大幅提升
138. 正則表達(dá)式教程?github
139. 中文閱讀理解數(shù)據(jù)集?github
140. 基于BERT等最新語言模型的抽取式摘要提取?github
141. Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南?link
142. 知識圖譜深度學(xué)習(xí)相關(guān)資料整理?github
- 深度學(xué)習(xí)與自然語言處理、知識圖譜、對話系統(tǒng)。包括知識獲取、知識庫構(gòu)建、知識庫應(yīng)用三大技術(shù)研究與應(yīng)用
143. 維基大規(guī)模平行文本語料?github
- 85種語言、1620種語言對、135M對照句
144. StanfordNLP 0.2.0:純Python版自然語言處理包?link
145. NeuralNLP-NeuralClassifier:騰訊開源深度學(xué)習(xí)文本分類工具?github
146. 端到端的封閉域?qū)υ捪到y(tǒng)?github
147. 中文命名實(shí)體識別:NeuroNER vs. BertNER?github
148. 新聞事件線索抽取?github
- An exploration for Eventline (important news Rank organized by pulic time),針對某一事件話題下的新聞報(bào)道集合,通過使用docrank算法,對新聞報(bào)道進(jìn)行重要性識別,并通過新聞報(bào)道時間挑選出時間線上重要新聞
149. 2019年百度的三元組抽取比賽,“科學(xué)空間隊(duì)”源碼(第7名)?github
150. 基于依存句法的開放域文本知識三元組抽取和知識庫構(gòu)建?github
151. 中文的GPT2訓(xùn)練代碼?github
152. ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)、NLP面試中常考到的知識點(diǎn)和代碼實(shí)現(xiàn)?github
153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查?github
154. XLM:Facebook的跨語言預(yù)訓(xùn)練語言模型?github
155. 用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識圖譜百度百科人物詞條屬性抽取?github
156. 中文自然語言處理相關(guān)的開放任務(wù),數(shù)據(jù)集, 以及當(dāng)前最佳結(jié)果?github
157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯(lián)系統(tǒng)?github
158. 抽象知識圖譜,目前規(guī)模50萬,支持名詞性實(shí)體、狀態(tài)性描述、事件性動作進(jìn)行抽象?github
159. MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目?github
160. brat rapid annotation tool: 序列標(biāo)注工具?link
161. 大規(guī)模中文知識圖譜數(shù)據(jù)::1.4億實(shí)體?github
162. 數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果?link
163. allennlp閱讀理解:支持多種數(shù)據(jù)和模型?github
164. PDF表格數(shù)據(jù)提取工具?github
165. Graphbrain:AI開源軟件庫和科研工具,目的是促進(jìn)自動意義提取和文本理解以及知識的探索和推斷?github
166. 簡歷自動篩選系統(tǒng)?github
167. 基于命名實(shí)體識別的簡歷自動摘要?github
168. 中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜?github
169. 樹洞 OCR 文字識別?github
- 一個c++ OCR?github
- ?
170. 從包含表格的掃描圖片中識別表格和文字?github
171. 語聲遷移?github
172. Python口語自然語言處理工具集(英文)?github
173. similarity:相似度計(jì)算工具包,java編寫?github
- 用于詞語、短語、句子、詞法分析、情感分析、語義分析等相關(guān)的相似度計(jì)算
174. 海量中文預(yù)訓(xùn)練ALBERT模型?github
175. Transformers 2.0?github
- 支持TensorFlow 2.0 和 PyTorch 的自然語言處理預(yù)訓(xùn)練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構(gòu)/33種預(yù)訓(xùn)練模型/102種語言
176. 基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng)?github
177. Poplar:網(wǎng)頁版自然語言標(biāo)注工具?github
178. 圖片文字去除,可用于漫畫翻譯?github
179. 186種語言的數(shù)字叫法庫?github
180. Amazon發(fā)布基于知識的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集?github
181. 中文文本糾錯模塊代碼?github
182. 繁簡體轉(zhuǎn)換?github
183. Python實(shí)現(xiàn)的多種文本可讀性評價指標(biāo)?github
184. 類似于人名/地名/組織機(jī)構(gòu)名的命名體識別數(shù)據(jù)集?github
185. 東南大學(xué)《知識圖譜》研究生課程(資料)?github
186. 英文拼寫檢查庫?github
from spellchecker import SpellCheckerspell = SpellChecker()# find those words that may be misspelled misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])for word in misspelled:# Get the one `most likely` answerprint(spell.correction(word))# Get a list of `likely` optionsprint(spell.candidates(word))187. wwsearch是企業(yè)微信后臺自研的全文檢索引擎?github
188. CHAMELEON:深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu)?github
189. 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思?github
190. DocSearch:免費(fèi)文檔搜索引擎?github
191. LIDA:輕量交互式對話標(biāo)注工具?github
192. aili - the fastest in-memory index in the East 東半球最快并發(fā)索引?github
193. 知識圖譜車音工作項(xiàng)目?github
194. 自然語言生成資源大全?github
- 內(nèi)含英文數(shù)據(jù)、論文、代碼
195. 中日韓分詞庫mecab的Python接口庫?github
196. 中文文本摘要/關(guān)鍵詞提取?github
197. 漢字字符特征提取器 (featurizer),提取漢字的特征(發(fā)音特征、字形特征)用做深度學(xué)習(xí)的特征?github
198. 中文生成任務(wù)基準(zhǔn)測評?github
199. 中文縮寫數(shù)據(jù)集?github
200. 中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜?github
201. PySS3:面向可解釋AI的SS3文本分類器機(jī)器可視化工具?github
202. 中文NLP數(shù)據(jù)集列表?github
203. COPE - 格律詩編輯程序?github
204. doccano:基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具?github
205. PreNLP:自然語言預(yù)處理庫?github
206. 簡單的簡歷解析器,用來從簡歷中提取關(guān)鍵信息?github
207. 用于中文閑聊的GPT2模型:GPT2-chitchat?github
208. 基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards、Datasets、Papers)?github
209. (Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程?github
210. 詞語拼音數(shù)據(jù)?github
211. 高效模糊搜索工具?github
212. NLP數(shù)據(jù)增廣資源集?github
213. 微軟對話機(jī)器人框架?github
214. GitHub Typo Corpus:大規(guī)模GitHub多語言拼寫錯誤/語法錯誤數(shù)據(jù)集?github
215. TextCluster:短文本聚類預(yù)處理模塊 Short text cluster?github
216. 面向語音識別的中文文本規(guī)范化?github
217. BLINK:最先進(jìn)的實(shí)體鏈接庫?github
218. BertPunc:基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型?github
219. Tokenizer:快速、可定制的文本詞條化庫?github
220. 中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫、排行榜?github
221. spaCy 醫(yī)學(xué)文本挖掘與信息提取?github
222. NLP任務(wù)示例項(xiàng)目代碼集?github
223. python拼寫檢查庫?github
224. chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹?github
225. 語音質(zhì)量評價指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR)?github
226. 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型?link
227. BERT-NER-Pytorch:三種不同模式的BERT中文NER實(shí)驗(yàn)?github
228. 無道詞典 - 有道詞典的命令行版本,支持英漢互查和在線查詢?github
229. 2019年NLP亮點(diǎn)回顧?download
- 提取碼: yb6x
230. Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集?github
231. 最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具?github
232. 基于百科知識庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧?github
233. awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取?github
234. LineFlow:面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器?github
235. 中文醫(yī)學(xué)NLP公開資源整理?github
236. MedQuAD:(英文)醫(yī)學(xué)問答數(shù)據(jù)集?github
237. 將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù)?github
238. Transfer Learning in Natural Language Processing (NLP)?youtube
239. 面向語音識別的中文/英文發(fā)音辭典?github
240. Tokenizers:注重性能與多功能性的最先進(jìn)分詞器?github
241. CLUENER 細(xì)粒度命名實(shí)體識別 Fine Grained Named Entity Recognition?github
242. 基于BERT的中文命名實(shí)體識別?github
243. 中文謠言數(shù)據(jù)庫?github
244. NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表?github
- 大多數(shù)為英文數(shù)據(jù)
245. nlp相關(guān)的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實(shí)體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計(jì)算等,涉及到各種與nlp相關(guān)的算法,基于keras和tensorflow?github
246. Python文本挖掘/NLP實(shí)戰(zhàn)示例?github
247. Blackstone:面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型?github
248. 通過同義詞替換實(shí)現(xiàn)文本“變臉”?github
249. 中文 預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model?github
250. albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER?github
251. 基于GPT2的特定主題文本生成/文本增廣?github
252. 開源預(yù)訓(xùn)練語言模型合集?github
253. 多語言句向量包?github
254. 編碼、標(biāo)記和實(shí)現(xiàn):一種可控高效的文本生成方法?github
255. 英文臟話大列表?github
256. attnvis:GPT2、BERT等transformer語言模型注意力交互可視化?github
257. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫,包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉(zhuǎn)錄及英文譯文?github
258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ),提供知識圖譜關(guān)系抽取 中文分詞 詞性標(biāo)注 命名實(shí)體識別 情感分析 新詞發(fā)現(xiàn) 關(guān)鍵詞 文本摘要 文本聚類等功能?github
259. 用unet實(shí)現(xiàn)對文檔表格的自動檢測,表格重建?github
260. NLP事件提取文獻(xiàn)資源列表?github
261. 金融領(lǐng)域自然語言處理研究資源大列表?github
262. CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集:搜索所有中文NLP數(shù)據(jù)集,附常用英文NLP數(shù)據(jù)集?github
263. medical_NER - 中文醫(yī)學(xué)知識圖譜命名實(shí)體識別?github
264. (哈佛)講因果推理的免費(fèi)書?pdf
265. 知識圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表?github
266. Forte:靈活強(qiáng)大的自然語言處理pipeline工具集?github
267. Python字符串相似性算法庫?github
268. PyLaia:面向手寫文檔分析的深度學(xué)習(xí)工具包?github
269. TextFooler:針對文本分類/推理的對抗文本生成模塊?github
270. Haystack:靈活、強(qiáng)大的可擴(kuò)展問答(QA)框架?github
271. 中文關(guān)鍵短語抽取工具?github
272. pdf文檔解析相關(guān)工具包
- pdf生成
- fdfgen: 能夠自動創(chuàng)建pdf文檔,并填寫信息
- pdf表格解析
- pdftabextract: 用于OCR識別后的表格信息解析,很強(qiáng)大
- tabula-py: 直接將pdf中的表格信息轉(zhuǎn)換為pandas的dataframe,有java和python兩種版本代碼
- pdfx: 自動抽取出引用參考文獻(xiàn),并下載對應(yīng)的pdf文件
- invoice2data: 發(fā)票pdf信息抽取
- camelot: pdf表格解析
- pdfplumber: pdf表格解析
- pdf語義分割
- PubLayNet:能夠劃分段落、識別表格、圖片
- pdf讀取工具
- PDFMiner:PDFMiner能獲取頁面中文本的準(zhǔn)確位置,以及字體或行等其他信息。它還有一個PDF轉(zhuǎn)換器,可以將PDF文件轉(zhuǎn)換成其他文本格式(如HTML)。還有一個可擴(kuò)展的解析器PDF,可以用于文本分析以外的其他用途。
- PyPDF2:PyPDF 2是一個python PDF庫,能夠分割、合并、裁剪和轉(zhuǎn)換PDF文件的頁面。它還可以向PDF文件中添加自定義數(shù)據(jù)、查看選項(xiàng)和密碼。它可以從PDF檢索文本和元數(shù)據(jù),還可以將整個文件合并在一起。
- ReportLab:ReportLab能快速創(chuàng)建PDF 文檔。經(jīng)過時間證明的、超好用的開源項(xiàng)目,用于創(chuàng)建復(fù)雜的、數(shù)據(jù)驅(qū)動的PDF文檔和自定義矢量圖形。它是免費(fèi)的,開源的,用Python編寫的。該軟件包每月下載5萬多次,是標(biāo)準(zhǔn)Linux發(fā)行版的一部分,嵌入到許多產(chǎn)品中,并被選中為Wikipedia的打印/導(dǎo)出功能提供動力。
273. 中文詞語相似度計(jì)算方法?gihtub
- 綜合了同義詞詞林?jǐn)U展版與知網(wǎng)(Hownet)的詞語相似度計(jì)算方法,詞匯覆蓋更多、結(jié)果更準(zhǔn)確。
274. 人民日報(bào)語料庫處理工具集?github
275. stanza:斯坦福團(tuán)隊(duì)NLP工具?github
- 可處理六十多種語言
276. 一個大規(guī)模醫(yī)療對話數(shù)據(jù)集?github
- 包含110萬醫(yī)學(xué)咨詢,400萬條醫(yī)患對話
277. 新冠肺炎相關(guān)數(shù)據(jù)
- 新冠及其他類型肺炎中文醫(yī)療對話數(shù)據(jù)集?github
- 清華大學(xué)等機(jī)構(gòu)的開放數(shù)據(jù)源(COVID-19)github
278. DGL-KE 圖嵌入表示學(xué)習(xí)算法?github
279. nlp-recipes:微軟出品--自然語言處理最佳實(shí)踐和范例?github
280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個快速從自然語言文本中提取和識別關(guān)鍵短語的工具?github
281. 使用GAN生成表格數(shù)據(jù)(僅支持英文)?github
282. Google發(fā)布Taskmaster-2自然語言任務(wù)對話數(shù)據(jù)集?github
283. BDCI2019金融負(fù)面信息判定?github
284. 用神經(jīng)網(wǎng)絡(luò)符號推理求解復(fù)雜數(shù)學(xué)方程?github
285. 粵語/英語會話雙語語料庫?github
286. 中文ELECTRA預(yù)訓(xùn)練模型?github
287. 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程?github
288. Parakeet:基于PaddlePaddle的文本-語音合成?github
289. 103976個英語單詞庫(sql版,csv版,Excel版)包?github
290. 《海賊王》知識圖譜?github
291. 法務(wù)智能文獻(xiàn)資源列表?github
292. Datasaur.ai 在線數(shù)據(jù)標(biāo)注工作流管理工具?link
293. (Java)準(zhǔn)確的語音自然語言檢測庫?github
294. 面向各語種/任務(wù)的BERT模型大列表/搜索引擎?link
295. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫?github
296. 基于預(yù)訓(xùn)練模型的中文關(guān)鍵詞抽取方法?github
297. Fancy-NLP:用于建設(shè)商品畫像的文本知識挖掘工具?github
298. 基于百度webqa與dureader數(shù)據(jù)集訓(xùn)練的Albert Large QA模型?github
?
總結(jié)
以上是生活随笔為你收集整理的几乎最全的中文NLP资源库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SEO【总结】by 2019年5月
- 下一篇: Windows server 2016