为您的数据科学/机器学习项目提供 26 个很棒的开放数据集

寻找正确的数据集可能会让人望而生畏,尤其是当您需要它们用于机器学习 (ML) 和数据科学项目时。 我们通过提供免费数据集的最终列表来减少您的研究工作。

数据集只是数据的集合。 它可以是金融、社区健康、股票市场数据、银行数据、地理数据、粒子科学研究数据、电子商务网站上的产品评级等。

数据集包含通过科学调查标准收集的数据,对于进一步的可视化、提取、预测等非常重要。由于数据相当于数字世界中的原油,因此数据集正变得商业化和稀缺。

继续阅读以了解有关数据集的基础知识。 您还将发现一些对您的机器学习 (ML) 或数据科学项目真正免费的开源数据集。

什么是数据集?

数据集是结构化和有组织的容器中的数据集合。 通常,调查员将数据集与一个独特的机构相关联,例如世界银行开放数据。

同样,数据收集者保留特定于某个主题的数据集,例如美国人口普查局发布的 2020 年美国人口普查数据。

您会发现许多关于全球和本地问题的数据集。 大多数数据集包含相互关联的数据点。 例如,一个国家的人口以及肥胖与该人口的不同类别之间的关系。

数据科学家可能需要使用大数据工具清理、重组和处理此类数据集,以得出有价值的结论,例如通过分析塑料使用数据来减少塑料浪费、通过分析工资数据来解决劳动力问题、培训人工智能 (AI) 等等上。

数据集的类型

根据数据集的来源,它们可以是公共的或私有的。 公共数据集对所有人开放,并为研究和开发做出了很大贡献。

同样,数据集可以是以下类型,具体取决于其中包含的信息:

  • 多变量:此类数据包含多个变量。
  • 分类:它描绘了许多类别的人。
  • 数字:此类数据集以年龄、身高等数字来衡量数据。
  • 相关性:在这种类型中,数据点是相互关联的。
  • 基于文件:在这里,数据集存储在文件中。
  • 双变量:具有两个变量以及它们之间的关系的数据集。
  • 网络数据集:从一个或多个类似的互联网门户收集的数据。
  • 数据库:此类数据集将数据存储在表、列和行中。

数据科学项目的开源数据集

免费数据集是激发您对数据科学事业的热情的燃料。 因为如果您处于数据科学职业生涯的早期阶段,您可能希望承担个人和非商业项目以建立自信或建立投资组合。

首先,您可以通过将工具和技术应用于现实世界的数据集问题来轻松测试您新学到的技能。

例如,有免费提供的癌症研究数据、Covid-19 数据、FBI 犯罪记录数据、来自 CERN 的粒子分析数据等。您可以使用这些数据并构建数据科学模型来回答重要的社会、财务和健康问题.

其次,这些项目可以作为你职业生涯的投资组合增强器。 如果您可以建立一个可以提供可操作见解的成功数据分析模型,您可以通过创建投资组合网站在线展示这些模型。 与目的陈述相比,雇主更喜欢项目。

  无需电缆:如何直播 NBA 全明星赛

机器学习项目的免费数据集

与数据科学专业人士一样,ML 专业人士也必须从事自我管理的项目以检查他们的技能。 如果项目成功,它也将成为您在线或离线 ML 项目组合的理想组件。

因此,您现在可以理解数据科学和 ML 的发展依赖于结构化数据集。 如果此类数据集过于商业化,数据科学领域的研究和开发将完全以企业为中心。

为了保持数据科学机器学习研究对所有人开放,以下机构、机构和平台提供免费数据集:

数据网站

您会发现美国政府收集和处理的所有开放数据。 在 Data.gov 中。 该平台还提供资源和工具来进行研究、设计数据可视化、开发移动/网络应用程序等。

其著名的数据集包括可持续土地利用数据、农村住房数据、内陆电子导航图等。

开放数据集:Kaggle

Kaggle 为数据科学项目提供了大量的公共数据和计算机代码。 您可以为原始数据选择数据集,为编程代码选择代码。 Kaggle 上的趋势数据集是 AMEX 数据、Simpsons Viewership、Chatbot 训练数据等。

细分数据集:YouTube 8-M

YouTube 8-M 中的分段数据集为您提供由人工审核员验证的分段注释。 您还可以从同一门户访问 YouTube-8M 数据集。 该数据集包含 610 万个视频 ID、35 万小时的视频、26 亿个音频/视频特征、3863 个视频类别,平均每个视频有 3.0 个标签。

AWS 上的开放数据注册表

AWS 上的 ROD 可帮助数据科学家共享和发现托管在 AWS 资源上的数据集。 您可以在这里找到一些有趣的数据集,如癌症基因组图谱、Foldingathome COVID-19 数据集、Common Crawl 等。

机器学习存储库:UCI

UCI 机器学习存储库目前维护 622 个数据集,适合数据科学家和 ML 工程师训练他们的 AI 模型。 此外,还有一个可搜索的界面来研究数据库。 受欢迎的景点有 Accelerometer 数据集、同步机器数据集、Wikipedia Math Essentials、Turkish Headlines 数据集等。

BigQuery 公共数据集:Google Cloud

许多公共数据集存储在 BigQuery 上。 谷歌通过谷歌云公共数据集计划免费提供数据集。 但是,免费查询每月有 1 TB 的限制。 您可以执行标准 SQL 和旧版 SQL 查询。

很棒的公共数据集:GitHub

Awesome Public Datasets 是一个包含以主题为中心的公共数据的开源数据集。 从各种博客、答案和用户反馈中收集和整理,它结合了物理、体育、软件、自然语言和机器学习方面的免费和付费数据集。

  以自定义布局录制分屏视频并组合它们 [Paid]

世界银行数据

世界银行开放数据是您免费访问全球发展数据的平台。 它还提供其他有价值的资源,例如预先格式化的表格和报告。 您可以轻松地按国家或指标浏览以获取所需的数据集。

FiveThirtyEight:数据

FiveThirtyEight 是一家美国网站,涉及民意调查分析、政治、经济和体育。 您可以通过其平台上的数据集访问这些民意调查和预测。 您可以一键下载数据集。

图像网

ImageNet 是一个图像数据库,世界各地的研究人员可以从中获取用于其非商业项目的开源数据集。 在这里,图像是根据 WordNet 层次结构组织的。 该项目在高级深度学习研究中发挥着至关重要的作用。

数据集档案:联合国儿童基金会数据

使用数据集档案,您可以获得联合国儿童基金会在世界各地收集的数据集。 有关移民、流离失所、饮食、连通性、教育、健康、学习、死亡率、暴力、儿童发展、童婚、童工和各种统计数据的数据可在此处获得。

查找开放数据:政府。 英国

如果您的项目需要当地机构和英国中央政府发布的数据,Find Open Data 是您应该查看的门户。 它涵盖了政府支出、商业、健康、教育、国防和更多数据集。

数据:美国人口普查局

您是否需要相关项目的美国人口普查数据? 您可以从 USCB Data 获得帮助。 在这里,您可以在可视化数据和使用数据工具的同时探索 2020 年人口普查数据、表格、地图和数据配置文件。

数据和统计:CDC

美国联邦机构疾病控制和预防中心还向公众提供免费数据集,以便从该门户访问数据和统计数据。 数据集主题是环境健康、慢性病、出生与出生、死亡与死亡率、预期寿命、伤害与暴力、生殖健康、国家法定传染病等。

数据集:麻省理工学院

该数据集侧重于涡激振动数据。 麻省理工学院的海洋工程中心拥有一些公开可用的数据集,用于计算机代码基准测试。 数据集向所有人开放,以邀请数据中的新理论并同步在同一领域工作的研究人员。

世界银行数据目录

数据目录收集免费数据集,使世界银行与发展相关的数据易于访问。 在各种项目中使用它是轻而易举的事,因为您可以轻松找到并下载您喜欢的信息。 它包含超过 5000 个数据集,涵盖世界银行的微观数据、金融和能源平台。

美国宇航局空间科学数据

NASA 提供对其在 Space Science Data Coordinated Archive 上的档案数据的访问。 这个平台对广大公众,尤其是从事教育和空间研究工作的人来说,是一个很大的帮助。 它拥有 400 TB 的数字数据,其中包含有关 550 项空间科学的信息。

获取数据:在 Airbnb 内部

Airbnb 是全球知名的寄宿家庭和度假租赁在线市场。 它还提供来自 Get the Data 的全球各个城市的数据收集。 您可以浏览整个城市以快速获取数据。 此外,您可以在此门户上请求您所需的数据并阅读数据假设。

网络数据:亚马逊评论

那些对市场研究和产品评论感兴趣的人应该使用 Snap Web Data 提供的数据集。 从 1995 年 6 月到 2013 年 3 月,它包含亚马逊上超过 3400 万条用户评论。数据集包含纯文本、产品信息、用户名、评分和评论。

国际货币基金组织数据

IMF 数据门户对所有经济和金融数据类型都很有价值。 无论您是在搜索 IMF 财务数据、外部部门统计数据、旗舰出版物还是微观经济学数据,您都可以在这里找到它们。 此外,您可以使用过滤器来获取国家数据。

  修复 CoD Black Ops 2 未处理的异常捕获错误

谷歌图书 Ngram

如果您正在研究词类和语言,Google Books Ngrams 可以为您提供极大的帮助。 这个开源数据集让您了解在整个历史或特定时间范围内使用特定单词和短语。 该数据集的来源是谷歌索引的数字文档。

市场数据:金融时报

如果您想获得可靠且准确的全球和区域股票市场数据,《金融时报》的 Markets Data 可为您提供帮助。 它使您能够处理来自美洲、亚太地区、欧洲、非洲和全球市场的市场数据。

地球数据:NASA

NASA 通过地球数据计划提供对其科学数据的全面开放访问,帮助您了解我们的家园星球并利用它开展项目。 您可以找到有关大气、生物圈、冰冻圈、人体维度、地表、海洋、固体地球、日地相互作用和陆地水圈的免费数据集。

数据集搜索:谷歌

如果您是正在寻找数据集来支持您的项目的学生、研究人员或数据科学家,您可以从数据集搜索门户获得帮助。 您可以将其称为数据集搜索引擎,因为它可以让您通过关键字搜索发现托管在网络上各种报告中的数据集。

开放数据:欧洲核子研究中心

欧洲研究组织 CERN 有一个开放数据门户,您可以使用该门户访问 CERN 的研究生成数据。 该数据集门户包含 2 PB 与粒子物理学相关的数据。 此外,它还附带数据分析所需的应用程序和文档。

犯罪数据探索者:FBI

犯罪数据浏览器 (CDE) 是 FBI 的开源数据集,旨在提供对犯罪、非犯罪和执法数据共享的更轻松访问。 除了允许您通过可视化和类别过滤发现必要的数据外,该平台还允许您以 CSV 格式下载数据。

最后的话

到目前为止,您已经浏览了一份真正详尽的高质量数据集列表。 本文介绍了来自各种领域的数据,如物理科学、医疗记录、空间研究、犯罪记录、产品评级等。

根据您所从事的数据科学或机器学习项目,您可以自行选择。 几乎所有的数据集都有适当的说明来帮助您完成项目。

您可能还对这些资源感兴趣,以学习数据科学和机器学习。