深度学习 机器学习 数据集资源汇总
目錄
數據集網站
具體數據集:
補充醫療圖像:
補充:多模態數據集匯總鏈接:
補充我記錄的一些鏈接:
機器學習具體方向領域數據集
圖片
情緒分析
自然語言處理
自動駕駛
臨床
一般數據集
公共政府數據集
金融與經濟
2022-09-20 再次更新:
尋找一個好用的數據集需要注意一下幾點:?
數據集不混亂,否則要花費大量時間來清理數據。
數據集不應包含太多行或列,否則會難以使用。
數據越干凈越好,清理大型數據集可能非常耗時。
應該預設一個有趣的問題,而這個問題又可以用數據來回答。
目前個人認為較好的數據集網站主要有:
數據集網站
1.AI Studio數據集: 開放數據集-百度AI Studio - 人工智能學習與實訓社區
2.天池數據集:數據集-阿里系唯一對外開放數據分享平臺
3.Papers With Code數據集:Machine Learning Datasets | Papers With Code
4.Kaggle 數據集:Find Open Datasets and Machine Learning Projects | Kaggle愛競賽的盆友們應該很熟悉了,Kaggle上有各種有趣的數據集,拉面評級、籃球數據、甚至西雅圖的寵物許可證。
5.Graviti Open Datasets:公開數據集下載,優質機器學習數據集,圖像識別、NLP免費獲取 | 格物鈦,非結構化數據平臺
6.Huggingface數據集:Hugging Face – The AI community building the future.
7.CLUE 數據集:https://www.cluebenchmarks.com/dataSet_search.html
8.各領域機器學習數據集匯總(附下載地址)
9.UCI機器學習庫:最古老的數據集源之一,是尋找有趣數據集的第一站。雖然數據集是用戶貢獻的,因此具有不同的清潔度,但絕大多數都是干凈的,可以直接從UCI機器學習庫下載,無需注冊。
10.VisualData:分好類的計算機視覺數據集,可以搜索~
具體數據集:
KITTI數據集:The KITTI Vision Benchmark Suite (cvlibs.net)
Cityscapes:Cityscapes Dataset – Semantic Understanding of Urban Street Scenes (cityscapes-dataset.com)
牛津數據集:[Datasets (ox.ac.uk)](https://robotcar-dataset.robots.ox.ac.uk/datasets/)
ApolloScape:[Apollo Scape](http://apolloscape.auto/)
BDD100K:Berkeley DeepDrive
Waymo Open Dataset:GitHub - waymo-research/waymo-open-dataset: Waymo Open Dataset
nuScenes數據集:https://www.nuscenes.org/download
3D Photography Dataset:(uiuc.edu)
Matterport 3D重建數據集:[Capture, share, and collaborate the built world in immersive 3D (matterport.com)](https://matterport.com/)
NoW Dataset:(mpg.de)
Pix3D:[Pix3D (mit.edu)](http://pix3d.csail.mit.edu/)
Replica Dataset:GitHub - facebookresearch/Replica-Dataset: The Replica Dataset v1 as published in https://arxiv.org/abs/1906.05797 .
Scan2CAD:[GitHub - skanti/Scan2CAD: CVPR'19] Dataset and code used in the research project Scan2CAD: Learning CAD Model Alignment in RGB-D Scans
ScanNet:[ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes (scan-net.org)](http://www.scan-net.org/)
NYC3Dcars:[NYC3DCars (cornell.edu)](http://nyc3d.cs.cornell.edu/)
Expressive Hands and Faces:[Computer Vision Group - Home (tum.de)](https://vision.in.tum.de/)
TUM數據集:[SMPL-X (mpg.de)](https://smpl-x.is.tue.mpg.de/)
EUROC數據集:[kmavvisualinertialdatasets – ASL Datasets (ethz.ch)](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)
補充醫療圖像:
肺結節數據庫LIDC-IDRI:LIDC-IDRI - The Cancer Imaging Archive (TCIA) Public Access - Cancer Imaging Archive Wiki
乳腺圖像數據庫DDSM MIAS:http://deckard.mc.duke.edu/ddsm_sql/book1.html
醫學圖像問答:Medical Image Format FAQ
ISBI:Challenges - Grand Challenge
補充:多模態數據集匯總鏈接:
多模態分析數據集(Multimodal Dataset)整理 - 知乎
補充我記錄的一些鏈接:
-
工業數據集匯總:開源工業缺陷數據集匯總,持續更新中(已更新28個) - 知乎
-
醫療數據集匯總:GitHub - linhandev/dataset: 醫學影像數據集列表
-
1、Kaggle競賽數據集 2、自然語言處理 3、圖像數據 4、推薦系統 5、金融 6、交通 7、商業 8、醫療健康 9、視頻數據 10、音頻數據 11、文本、評價、回答數據集合 12、科研 13、其他數據集綜合 匯總:各領域近千條數據集公開,你要的這里都有 - 知乎
-
激光雷達數據集匯總:匯總|基于激光雷達的3D目標檢測開源項目&數據集 - 知乎
-
知乎相關數據集匯總:整理了一下關于知乎的公開數據集(歡迎評論補充) - 知乎
-
圖論相關數據集匯總:圖數據集分享 - 知乎
-
各領域公開數據集匯總(金融,醫療,nlp,圖像等等):各領域公開數據集下載 - 知乎
-
各類數據集匯總:GitHub - awesomedata/awesome-public-datasets: A topic-centric list of HQ open datasets.
機器學習具體方向領域數據集
圖片
Labelme:帶注釋的大型圖像數據集。
ImageNet:大家熟悉的ImageNet,女神李飛飛參與創建,同名比賽影響整個計算機視覺界。
LSUN:場景理解與許多輔助任務(房間布局估計,顯著性預測等)
MS COCO:同樣也是知名計算機視覺數據集,同名比賽每年都被中國人屠榜。
COIL 100:100個不同的物體在360度旋轉的每個角度成像。
視覺基因組:非常詳細的視覺知識庫。
谷歌開放圖像:在知識共享下的900萬個圖像網址集合“已經注釋了超過6000個類別的標簽”。
野外標記面:13000張人臉標記圖像,可以用于開發涉及面部識別的應用程序。
斯坦福狗子數據集:20580張狗子的圖片,包括120個不同品種。
室內場景識別:包含67個室內類別,15620個圖像。
情緒分析
多域情緒分析數據集:一個稍老一點的數據集,用到了來自亞馬遜的產品評論。
IMDB評論:用于二元情緒分類的數據集,不過也有點老、有點小,有大約25000個電影評論。
斯坦福情緒樹庫:帶有情感注釋的標準情緒數據集。
Sentiment140:一個流行的數據集,它使用160,000條預先刪除表情符號的推文。
Twitter美國航空公司情緒:2015年2月美國航空公司的Twitter數據,分類為正面,負面和中性推文。
自然語言處理
HotspotQA數據集:具有自然、多跳問題的問答數據集,具有支持事實的強大監督,以實現更易于解釋的問答系統。
安然數據集:來自安然高級管理層的電子郵件數據。
亞馬遜評論:包含18年來亞馬遜上的大約3500萬條評論,數據包括產品和用戶信息,評級和文本審核。
Google Books Ngrams:Google Books中的一系列文字。
Blogger Corpus:收集了來自blogger.com的681,288篇博文,每篇博文至少包含200個常用英語單詞。
維基百科鏈接數據:維基百科的全文,包含來自400多萬篇文章的近19億個單詞,可以按段落、短語或段落本身的一部分進行搜索。
Gutenberg電子書列表:Gutenberg項目中帶注釋的電子書書單。
Hansards加拿大議會文本:來自第36屆加拿大議會記錄的130萬組文本。
Jeopardy:來自問答節目Jeopardy的超過200,000個問題的歸檔。
英文垃圾短信收集:由5574條英文垃圾短信組成的數據集。
Yelp評論:Yelp,就是美國的“大眾點評”,這是他們發布的一個開放數據集,包含超過500萬條評論。
UCI的Spambase:一個大型垃圾郵件數據集,對垃圾郵件過濾非常有用。
自動駕駛
Berkeley DeepDrive BDD100k:目前最大的自動駕駛數據集,包含超過100,000個視頻,其中包括一天中不同時段和天氣條件下超過1,100小時的駕駛體驗。其中帶注釋的圖像來自紐約和舊金山地區。
百度Apolloscapes:度娘的大型數據集,定義了26種不同物體,如汽車、自行車、行人、建筑物、路燈等。
Comma.ai:超過7小時的高速公路駕駛,細節包括汽車的速度、加速度、轉向角和GPS坐標。
牛津的機器人汽車:這個數據集來自牛津的機器人汽車,它于一年時間內在英國牛津的同一條路上,反反復復跑了超過100次,捕捉了天氣、交通和行人的不同組合,以及建筑和道路工程等長期變化。
城市景觀數據集:一個大型數據集,記錄50個不同城市的城市街景。
CSSAD數據集:此數據集對于自動駕駛車輛的感知和導航非常有用。不過,數據集嚴重偏向發達國家的道路。
KUL比利時交通標志數據集:來自比利時法蘭德斯地區數以千計的實體交通標志的超過10000條注釋。
MIT AGE Lab:在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。
LISA:UC圣迭戈智能和安全汽車實驗室的數據集,包括交通標志、車輛檢測、交通信號燈和軌跡模式。
博世小交通燈數據集:用于深度學習的小型交通燈的數據集。
LaRa交通燈識別:巴黎的交通信號燈數據集。
WPI數據集:交通燈、行人和車道檢測的數據集。
臨床
MIMIC-III:MIT計算生理學實驗室的公開數據集,標記了約40000名重癥監護患者的健康數據,包括人口統計學、生命體征、實驗室測試、藥物等維度。
一般數據集
除了機器學習專用的數據集,還有一些其他的一般數據集,可能很有趣~
公共政府數據集
Data.gov:該網站可以從多個美國政府機構下載數據,包括各種奇怪的數據,從政府預算到考試分數都有。不過,其中大部分數據需要進一步研究。
食物環境地圖集:本地食材如何影響美國飲食的數據。
學校財務系統:美國學校財務系統的調查。
慢性病數據:美國各地區慢性病指標數據。
美國國家教育統計中心:教育機構和教育人口統計數據,不僅有美國的數據,也有一些世界上其他地方的數據。
英國數據服務:英國最大的社會、經濟和人口數據集。
數據美國:全面可視化的美國公共數據。
補充一句,我國國家統計局其實也不錯:國家統計局。
金融與經濟
Quandl:經濟和金融數據的良好來源,有助于建立預測經濟指標或股票價格的模型。
世界銀行開放數據:全球人口統計數據,還有大量經濟和發展指標的數據集。
國際貨幣基金組織數據:國際貨幣基金組織公布的有關國際金融,債務利率,外匯儲備,商品價格和投資的數據。
金融時報市場數據:來自世界各地的金融市場的最新信息,包括股票價格指數,商品和外匯。
Google Trends:世界各地的互聯網搜索行為和熱門新聞報道的數據。
美國經濟協會:美國宏觀經濟數據。
........待補充,會繼續更新奧!
這些數據集應該能滿足大部分人的需求。
我倡議大家不要無腦搬運數據集,最好是搬一個數據集配套一個項目,優化社區生態,我們共同努力!ヾ(≧?≦*)ゝ
2022-09-20 再次更新:
先直接上一個大boss:谷歌的
Dataset Search?datasetsearch.research.google.com/
同時,留一些鏈接記錄一些數據集網址集合:
Best Public Datasets for Machine Learning and Data Science
免費數據集下載
吐血整理:43種機器學習開源數據集
各類數據集整理(持續更新中ing)
數據集大全:25個深度學習的開放數據集
找動態網絡的數據集
機器學習需要的大量數據集從哪里找?
資源 | 機器學習高質量數據集大合輯
AMiner Dataset
NETWORK DATASETS
Index of Complex Networks(支持條件篩選)
toreopsahl.com 數據集?(種類較多)
Stanford Large Network Dataset Collection
The KONECT Project
Network data
LINK-group
Network data sets
Kaggle
格物鈦graviti
以下為詳細的數據集:
Enron Email(郵件數據集)
DBLP數據集(論文合作關系)
Cora(引文網絡)
Citeseer?(引文網絡)
Social Spammer?(垃圾郵件數據集)
Astro Physics collaboration network(合作網絡)
Hypertext 2009 Contact Network(會議與會者接近程度數據集)
SFHH?(會議與會者接近程度數據集)
Citation Network Dataset(引文網絡)
Patent citation network?(專利引用網絡)
Online Social Networks(Flickr、LiveJournal、Orkut、YouTube)—?含Group
參考博客:最強數據集集合:50個最佳機器學習公共數據集丨資源_量子位的博客-CSDN博客?
總結
以上是生活随笔為你收集整理的深度学习 机器学习 数据集资源汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 模糊数学笔记-模糊集
- 下一篇: 装备制造业的变革时代,SCM供应链管理系