机器学习数据集大全
下面,您將找到一個由用戶組織的數據科學和機器學習免費數據集的策劃列表。您將找到精選的數據集和我們最喜歡的聚合器。
?
目錄
- 探索性分析
- 通用機器學習
- 深度學習
- 自然語言處理
- 基于云的機器學習
- 時間序列分析
- 推薦系統
- 特定行業
- 流數據
- 網頁搜羅
- 現在發生的事
?
探索性分析的數據集
探索性分析是大多數數據科學練習的第一步。實踐探索性分析的最佳數據集應該是有趣的,有趣的和非平凡的(即需要您挖掘一點來揭示所有的見解)。
所有鏈接都在新標簽中打開。
我們的選擇:
- 權力的游戲?- 權力的游戲是一個流行的電視連續劇,基于喬治RR馬丁的火之歌??系列。使用此數據集,您可以探索其政治格局,角色和戰斗。
- 世界大學排名?- 排名大學可能很困難,也很有爭議。有數百個排名系統,他們很少達成共識。該數據集包含三個全球大學排名。
- IMDB 5000電影數據集?- 該數據集探討了在電影發布之前我們是否可以預測電影的受歡迎程度的問題。
聚合器:
- Kaggle數據集?- 由Kaggle社區提供的開放數據集。在這里,你會找到一個主題的抓包。另外,您可以從數據集附帶的簡短教程和腳本中學習。
- r / datasets?- 由Reddit社區提供的開放數據集。這是有趣和古怪的數據集的另一個來源,但數據集往往不那么精致。
?
通用機器學習的數據集
在這種情況下,我們將“一般”機器學習稱為回歸,分類和具有關系(即表格式)數據的聚類。這些是最常見的ML任務。
我們的選擇:
- 葡萄酒質量(回歸)?- 來自葡萄牙北部的紅色和白色vinho verde葡萄酒樣品的屬性。目標是根據物理化學測試對葡萄酒質量進行建模。(我們也有一個教程。)
- 信用卡默認(分類)?- 預測信用卡默認值是機器學習的寶貴和常見用途。此豐富數據集包括人口統計信息,付款歷史記錄,信用和默認數據。
- 美國人口普查數據(聚類)?- 基于人口統計數據的聚類是一種經過驗證的實施市場研究和細分的方法。
聚合器:
- UCI機器學習存儲庫?- UCI ML存儲庫是機器學習數據集的一種古老且流行的聚合器。提示:他們的大多數數據集都鏈接了可用于基準測試的學術論文。
?
深度學習數據集
雖然不適合通用機器學習,但深度學習一直主導某些利基,特別是那些使用圖像,文本或音頻數據的利基。根據我們的經驗,開始深度學習的最佳方法是練習圖像數據,因為有豐富的教程。
我們的選擇:
- MNIST?- MNIST包含用于手寫數字分類的圖像。它被認為是深度學習的一個很好的入門數據集,因為它足夠復雜以保證神經網絡,同時仍然可以在單個CPU上進行管理。(我們也有一個教程。)
- CIFAR?- 難度的下一步是CIFAR-10數據集,其中包含分為10個不同類的60,000個圖像。對于更大的挑戰,您可以嘗試CIFAR-100數據集,該數據集有100個不同的類。
- ImageNet?- ImageNet每年舉辦一次計算機視覺競賽,許多人認為它是現代表演的基準。當前圖像數據集有1000個不同的類。
- YouTube 8M?- 準備處理視頻,但無法節省數TB的存儲空間?此數據集包含使用最新深度學習模型預先提取的數百萬YouTube視頻ID和數??十億?的音頻和視覺功能。
聚合器:
- Deeplearning.net?- 用于對深度學習算法進行基準測試的最新數據集列表。
- DeepLearning4J.org?- 用于深度學習研究的高質量數據集的最新列表。
YouTube的-8M
?
自然語言處理的數據集
自然語言處理(NLP)是關于文本數據的。對于像文本這樣的混亂數據,對于數據集來說,擁有真實世界的應用程序尤為重要,這樣您就可以進行簡單的健全性檢查。
我們的選擇:
- 安然數據集??-?安然高級管理層的電子郵件數據,組織成文件夾。該數據集最初公布,并在聯邦能源監管委員會調查期間發布到網上。
- 亞馬遜評論?- 包含來自亞馬遜的約3500萬條評論,涵蓋18年。數據包括產品和用戶信息,評級和明文審核。
- 新聞組分類?- 收集大約20,000個新聞組文檔,在20個不同的新聞組中平均分配(幾乎)。非常適合練習文本分類和主題建模。
聚合器:
- nlp-datasets(Github)?- 具有用于NLP的文本數據的自由/公共域數據集的字母順序列表。
- Quora Answer?- NLP注釋語料庫列表。
?
云計算機學習的數據集
從技術上講,如果您只是將數據集上傳到云端,那么任何數據集都可用于基于云的機器學習。但是,如果您剛開始并評估平臺,則可能希望跳過所有數據管道。
幸運的是,主要的云計算服務都提供了您可以輕松導入的公共數據集。他們的數據集都具有可比性。
我們的選擇:
- AWS公共數據集
- Google Cloud公共數據集
- Microsoft Azure公共數據集
?
時間序列分析的數據集
時間序列分析需要標記時間戳的觀察。換句話說,跨時間跟蹤每個主題和/或特征。
我們的選擇:
- EOD股票價格?- 由Quandl社區策劃的3,000家美國公司的股票價格,股息和分割結束。
- Zillow房地產研究?- 按大小,類型和等級劃分的房屋價格和租金,按郵政編碼,社區,城市,都市區,縣和州劃分。
- 全球教育統計?- 超過4,000個國際可比指標,用于教育獲取,升級,完成,掃盲,教師,人口和支出。
聚合器:
- Quandl?- Quandl包含用于財務分析的免費和高級時間序列數據集。
- 世界銀行?- 包含全球宏觀經濟時間序列,可按國家或指標搜索。
Zillow房地產數據
?
推薦系統的數據集
推薦系統已經風靡娛樂和電子商務行業。亞馬遜,Netflix和Spotify都是很好的例子。
我們的選擇:
- MovieLens??- 來自MovieLens網站的評級數據集。由于可用的各種數據集大小,非常適合入門。
- Jester?- 構建簡單協作過濾器的理想選擇。包含來自73,421個用戶的100個笑話的410萬連續收視率(-10.00到+10.00)。
- Million Song Dataset?- 用于音樂推薦的大型豐富數據集。您可以從純協作過濾器開始,然后使用其他方法(如基于內容的模型或Web抓取)對其進行擴展。
聚合器:
- entaroadun(Github)?- 推薦系統的數據集集合。提示:查看評論部分以獲取最新數據集。
?
特定行業的數據集
在這個綱要中,我們根據用例組織了數據集。如果您需要練習某種技能,例如深度學習或時間序列分析,這將非常有用。
但是,您可能還希望按特定行業進行搜索,例如神經科學,天氣或制造的數據集。以下是幾個選項:
聚合器:
- 令人敬畏的公共數據集?- 按行業劃分的高質量數據集。
- Data.gov?- 按行業劃分的策劃政府數據。
?
流式傳輸的數據集
流數據集用于構建實時應用程序,例如數據可視化,趨勢跟蹤或可更新(即“在線”)機器學習模型。
我們的選擇:
- Twitter API?- twitter API是流數據的經典來源。您可以跟蹤推文,主題標簽等。
- StockTwits API?- StockTwits就像是交易者和投資者的推特。您可以通過使用時間戳和股票代碼符號將其連接到時間序列數據集,以許多有趣的方式擴展此數據集。
- 天氣地下?- 全球覆蓋的可靠天氣API。提供免費套餐和付費選項以擴大規模。
聚合器:
- Satori?- Satori是一個平臺,可讓您以超低延遲(免費)連接流媒體直播數據。他們經常添加新的數據集。
?
Web Scraping的數據集
網絡抓取是數據科學研究的一個常見部分,但您必須小心違反網站的服務條款。幸運的是,有一個完整的網站可以自由地抓取。
我們的選擇:
- ToScrape.com?- 帶有兩個子域的Web?抓沙箱。您可以練習刮取虛構的書店或列出名人姓名的網站。
虛構的書店
?
當前事件的數據集
查找當前事件的數據集可能很棘手。幸運的是,一些出版物已經開始發布他們在文章中使用的數據集。
聚合器:
- FiveThirtyEight?- FiveThirtyEight是一個包含數據驅動文章的新聞和體育網站。他們在Github上公開提供他們的數據集。
- BuzzFeedNews?- BuzzFeed因其列表和膚淺的作品而聞名,但他們已經擴展到調查性新聞。他們的數據集可在Github上獲得。
?
總結
- 上一篇: 传递函数转化为状态空间 matlab,多
- 下一篇: 应用窗口置顶工具 DeskPins