自然语言处理(NLP)数据集汇总 4(附下载链接)
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理(NLP)数据集汇总 4(附下载链接)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
🎄🎄【自然語言處理NLP】簡介 🎄🎄
自然語言處理(Natural Language Processing, NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。
🎄🎄近期,小海帶在空閑之余收集整理了一批自然語言處理(NLP)開源數據集供大家參考。?整理不易,小伙伴們記得一鍵三連喔!!!🎈🎈
一、優秀資源
1.優秀的公開NLP數據集(包含更多清單)
5https://github.com/awesomedata/awesome-public-datasets
2.亞馬遜公開數據集
https://aws.amazon.com/de/datasets/
3.CrowdFlower數據集(包含大量小調查和對特定任務以眾包方式獲得的數據)
https://www.crowdflower.com/data-for-everyone/
4.Kaggle數據集
https://www.kaggle.com/datasets
5.Kaggle比賽(請確保這些kaggle比賽數據可以在比賽之外使用)
https://www.kaggle.com/competitions
6.開放圖書館
https://openlibrary.org/developers/dumps
7.Quora(大部分為已標注好的語料庫)
https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
8.reddit數據集(無數個數據集,大部分由業余愛好者爬取,但數據的整理和許可可能不夠規范)
https://www.reddit.com/r/datasets
9.Rs.io:也是一個很長的數據集清單
http://rs.io/100-interesting-data-sets-for-statistics/
10.Stackexchange:公開數據
http://opendata.stackexchange.com/
11.斯坦福NLP組(大部分為已標注的語料庫和TreeBanks,以及實用的NLP工具)
https://nlp.stanford.edu/links/statnlp.html
12.雅虎研究院的數據集匯總Webscope(還包含了使用了這些數據的論文列表)
http://webscope.sandbox.yahoo.com/
二、數據集
1.Twitter上關于自動駕駛汽車的輿情分析:貢獻者們閱讀推文后,將推文里對于自動駕駛的態度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動駕駛汽車無關,他們也要標記出來。(1MB)
https://www.figure-eight.com/data-for-everyone/
2.Twitter上定位于東京的推文:20萬條來自東京的推文。(47MB)
http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
3.Twitter上定位于英國的推文:17萬條來自英國的推文。(47MB)
http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
4.Twitter上定位于美國的推文:20萬條來自美國的推文。(45MB)
http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
5.Twitter上對于美國各大航空公司的態度(Kaggle數據集):這是一個對于美國各大航空公司存在問題的情感分析任務。該數據集爬取了2015年2月的推文,貢獻者們將其分類為積極、消極和中立,對于那些分類為消極態度的推文,還會給出原因(例如“飛機晚點”或“服務態度差”等)。(2.5MB)
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
6.基于新聞標題的美國經濟表現:根據新聞標題頭條和摘要,對新聞和美國經濟的相關性進行排序。(5MB)
https://www.figure-eight.com/data-for-everyone/
7.城市詞典(美國在線俚語詞典)里的單詞和定義:一個經過清洗的CSV語料庫,包含截至2016年5月的城市詞典內所有260萬個詞匯、定義、作者和投票情況。(238MB)
https://www.kaggle.com/therohk/urban-dictionary-words-dataset
8.亞馬遜的Wesbury Lab Usenet語料庫:2005-2010的47,860個英文新聞組的郵件匿名匯編(40GB)
http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
9.維基百科的Wesbury Lab語料庫:2010年4月維基百科英文部分中所有文章的快照。網站詳細描述了數據是如何被處理的——即去除所有鏈接和不相關的材料(如導航文本等)。語料庫是未經標記的原始文本,它被用于Stanford NLP。
http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
10.Stanford NLP跳轉的鏈接:
https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
11.維基百科提取(WEX):經處理后的英文版維基百科(66GB)
http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
12.維基百科的XML格式數據:所有維基媒體(Wikimedia)的完整復制,以維基文本元(wikitext source)和元數據的形式嵌入到XML中。(500GB)
http://aws.amazon.com/de/datasets/wikipedia-xml-data/
13.雅虎問答中的綜合問題與答案:截至2007年10月25日的雅虎問答語料庫,包含4,483,032條問答。(3.6GB)
http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
14.雅虎問答中用法語提問的問題:2006-2015年雅虎問答語料庫的子數據集,包含170萬條法語問答。(3.8GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
15.雅虎問答中的關于“如何做”的問題[LZ2]:根據語言屬性從2007年10月25日雅虎問答語料庫選出的子集,包含142,627條問答。(104MB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
16.雅虎從公開網頁中提取的HTML格式頁面:包含少量復雜HTML格式的頁面和267萬個復雜格式的頁面。(50+ GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
17.雅虎從公開網頁頁面中提取的元數據:1億個RDF格式數據的三元組(2GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
18.雅虎的N元語法模型表示(N-Gram Representations)數據:該數據集包含N元語法表示數據,這些數據可以用于IR研究中常見的查詢重寫(query rewriting)任務,也可以用于NLP研究中常見的詞語和句子相似性分析任務。(2.6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
19.雅虎的N元語法模型數據(版本2.0):n元語法模型數據(n=1-5),從一個包含1460萬個文檔(1.26億條不重復的語句,34億個運行詞)的語料庫中提取,這些文檔是從12000個面向新聞的站點里爬取的(12 GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
20.雅虎搜索日志的相關性判斷:匿名雅虎搜索日志的相關性判斷(1.3GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
21.雅虎的英語維基百科語義注釋快照:包含從2006年11月4日開始的經一些公開的NLP工具處理后的英文維基百科,共有1,490,688個條目。(6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
22.Yelp:包含餐廳排名和220萬條評論
https://www.yelp.com/dataset
23.Youtube:170萬條YouTube視頻描述(torrent格式)
https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
>>>一起交流!互相學習!共同進步!<<<
總結
以上是生活随笔為你收集整理的自然语言处理(NLP)数据集汇总 4(附下载链接)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 带GPS的SLAM数据集汇总
- 下一篇: 测试工程师的分类有哪些?发展前景怎么样?