機器學習和資料科學的最佳公共資料集-有解無憂

作者|Towards AI Team
編譯|Flin
來源|medium

此資源不斷更新，如果你知道任何其他合適且開放的資料集，請通過電子郵件通知我們：[email protected] 或者在下面發表評論，

資料集查找器

Google Dataset Search：與Google Scholar的作業方式類似，Dataset Search 可以讓你在任何托管的地方找到資料集，無論是一個出版商的網站，一個數字圖書館，還是一個作者的網頁，它是一個非凡的資料集查找器，它包含超過2500萬個資料集，

https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一個龐大的資料集容器，對于熱衷于此的專家來說足夠了，

https://www.kaggle.com/

UCI機器學習庫：UCI的機器學習庫為開源資料集提供了最新的資源，

http://mlr.cs.umass.edu/ml/

VisualData：按類別搜索計算機視覺資料集；它允許搜索查詢，

https://www.visualdata.io/

CMU庫：通過在CMU收集的Wang Huajin Wang，發現高質量的資料集，

https://guides.library.cmu.edu/machine-learning/datasets

一般資料集

住房資料集

波士頓住房資料集：包含美國人口普查局收集的有關波士頓地區住房的資訊，它是從StatLib檔案中獲得的，在整個文獻中被廣泛用于對演算法進行基準測驗，

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

地理資料集

Google-Landmarks-v2：用于地標識別和檢索的改進資料集，這個資料集包含了來自世界各地的5百萬張20萬多個地標的圖片，這些圖片由Wiki Commons社區提供和注釋，

https://www.kaggle.com/xiuchengwang/python-dataset-download

機器學習資料集：

購物中心客戶資料集： 購物中心客戶資料集包含特定城市中訪問購物中心的人的資訊，資料集由不同的列組成，如性別、客戶id、年齡、年收入和支出分數，它通常用于根據年齡、收入和興趣對客戶進行細分，

https://www.kaggle.com/shwetabh123/mall-customers

IRIS資料集：IRIS資料集是一個簡單的初學者友好的資料集，包含有關花瓣和萼片寬度的資訊，資料分為三個類，每個類有50行，它通常用于分類和回歸建模，

https://archive.ics.uci.edu/ml/datasets/Iris

MNIST資料集：這是一個手寫數字的資料集，它包含60000個訓練影像和10000個測驗影像，這是一個完美的開始實作影像分類的資料集，你可以從0到9對數字進行分類，

http://yann.lecun.com/exdb/mnist/

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

假新聞檢測資料集：它是一個CSV檔案，有7796行，有四列，共有四列：新聞、標題、新聞文本、結果，

https://www.kaggle.com/c/fake-news/data

葡萄酒質量資料集：該資料集包含有關葡萄酒的不同化學資訊，資料集適用于分類和回歸任務，

https://archive.ics.uci.edu/ml/datasets/wine+quality

SOCR 資料 - 高度和重量資料集：這是初學者的基本資料集，它只包含25000個18歲的不同人類的身高和體重，這個資料集可以用來建立一個模型，可以預測一個人的身高或體重，

http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

Titanic資料集：該資料集包含諸如姓名、年齡、性別、船上兄弟姐妹人數等資訊，以及訓練集中891名乘客和測驗集中418名乘客的其他資訊，

https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

信用卡欺詐檢測資料集：該資料集包含由信用卡進行的交易；它們被標記為欺詐性或真實性，這對于擁有交易系統的公司來說，建立一個檢測欺詐活動的模型非常重要，

https://www.kaggle.com/mlg-ulb/creditcardfraud

計算機視覺資料集

xView:xView是最龐大的空中影像公開資料集之一，它包含來自世界各地復雜場景的影像，并使用邊界框進行注釋，

http://xviewdataset.org/#dataset

ImageNet：最大的計算機視覺影像資料集，根據WordNet的說法，它提供了一個可訪問的影像資料庫，它是按層次組織的，

http://image-net.org/

Kinetics-700:Youtube視頻url的大規模資料集，包括以人為中心的行動，它包含超過70萬個視頻，

https://deepmind.com/research/open-source/open-source-datasets/kinetics/

谷歌的開放影像：來自谷歌人工智能的一個巨大的資料集，包含超過1000萬張圖片，

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

城市景觀資料集：這是一個用于計算機視覺專案的開源資料集，它包含在50個不同城市街道拍攝的視頻序列的高質量像素級注釋，該資料集可用于語意分割和訓練深層神經網路以了解城市場景，

https://www.cityscapes-dataset.com/

imdbwiki資料集：imdbwiki資料集是針對帶有性別和年齡標簽的人臉影像的最廣泛的開源資料集之一，圖片來自IMDB和Wikipedia，它有五百萬多個標簽影像，

https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

顏色檢測資料集：該資料集包含一個CSV檔案，其中有865個顏色名稱及其相應的RGB（紅色、綠色和藍色）值，它還有顏色的十六進制值，

https://github.com/codebrainz/color-names/blob/master/output/colors.csv

斯坦福狗資料集：它包含20580張圖片和120個不同品種的狗，

http://vision.stanford.edu/aditya86/ImageNetDogs/

情緒分析資料集

詞典編纂者情緒詞典：這個資料集是專門用于情緒分析的，資料集包含3000多個負面詞匯和2000多個積極情緒詞，

http://www.lexicoder.com/

IMDB評論：一個有趣的資料集，包含來自Kaggle的50000多個電影評論，

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

斯坦福情緒樹庫：帶情緒注釋的標準情緒資料集，

http://nlp.stanford.edu/sentiment/code.html

Twitter美國航空公司情緒：2015年2月美國航空公司Twitter資料，分為正面、負面和中性推文

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然語言處理（NLP）資料集

HotspotQA資料集：問答資料集，具有自然的、多跳的問題，并對事實進行嚴格監督，以實作更易于解釋的問答系統，

https://hotpotqa.github.io/

亞馬遜評論：來自亞馬遜的龐大資料集，包含超過4500萬條亞馬遜評論，

https://snap.stanford.edu/data/web-Amazon.html

爛番茄評論：超過48萬評論檔案（新鮮或腐爛），

https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

英語短信垃圾收集：一個由5574條英語短信垃圾資訊組成的資料集，

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

安然電子郵件資料集：它包含超過150個用戶的大約50萬封電子郵件，

https://www.cs.cmu.edu/~enron/

推薦系統資料集：它包含來自流行網站的各種資料集，如Goodreads書評、亞馬遜產品評論、調酒資料、社交媒體資料以及其他用于構建推薦系統的資料集，

https://cseweb.ucsd.edu/~jmcauley/datasets.html

UCI Spambase資料集：將電子郵件分類為垃圾郵件或非垃圾郵件是一項普遍而有用的任務，該資料集包含4601封電子郵件和57封有關電子郵件的元資訊，你可以建立模型來過濾垃圾郵件，

https://archive.ics.uci.edu/ml/datasets/Spambase

IMDB評論：大型電影評論資料集包括來自IMDB網站的電影評論，其中超過25000條評論用于培訓，25000條評論用于測驗集，

http://ai.stanford.edu/~amaas/data/sentiment/

自動駕駛（自動駕駛）資料集

Waymo開放資料集：這是來自Waymo員工的一個很棒的資料集資源，包括大量的自動駕駛資料集，足以從零開始訓練深度網路，

https://waymo.com/open/

Berkeley DeepDrive BDD100k：最大的自動駕駛汽車資料集之一，包含紐約和加利福尼亞州超過2000小時的駕駛體驗，

http://bdd-data.berkeley.edu/

博世小交通燈資料集：用于深入學習的小交通燈資料集，

https://hci.iwr.uni-heidelberg.de/node/6132

LaRa紅綠燈識別：另一個紅綠燈資料集，這個資料集是從巴黎收集的，

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI資料集：用于交通燈、行人和車道檢測的資料集，

http://computing.wpi.edu/dataset.html

Comma.ai：它包含諸如車速、加速度、轉向角和GPS坐標等詳細資訊，

https://archive.org/details/comma-dataset

MIT AGE Lab：年齡實驗室收集的1000多小時多傳感器駕駛資料集的樣本，

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：智能與安全汽車實驗室，加州大學圣地亞哥資料集：該資料集包括交通標志、車輛檢測、交通燈和軌跡模式，

http://cvrr.ucsd.edu/LISA/datasets.html

城市景觀資料集：這是一個廣泛的資料集，包含50個不同城市的街道場景，

https://www.cityscapes-dataset.com/

臨床資料集

COVID-19資料集：艾倫人工智能研究所（Allen Institute of AI research）發布了一個龐大的研究資料集，包含了45000多篇關于COVID-19的學術文章，

https://www.semanticscholar.org/cord19

MIC-III：由麻省理工學院計算生理學實驗室開發的公開可用資料集，包括與約40000名危重病人相關的未識別健康資料，它包括人口統計、生命體征、實驗室檢查、藥物治療等，

https://mimic.physionet.org/

尾注：

如果你知道其他高質量、免費的資料集，你會推薦給人們用于機器學習、深度學習、資料科學等的研究和應用，請隨時在下面的評論中提出建議，或直接發送電子郵件至 [email protected]，

如果推薦理由是可靠的，我們將對其進行分析，并將其列入此串列，另外，請在評論部分告訴我們你使用這些資料集的經驗，

參考和來源

[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/

[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/

[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec

[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/

[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning

[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/

[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html

[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets

[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/

[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/

原文鏈接：https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方檔案：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/101272.html

標籤：其他

上一篇：向大佬低頭——被惡意反向代理的無奈

下一篇：測驗時間序列的40個問題