为您的数据科学/机器学习项目提供 26 个很棒的开放数据集

寻找合适的数据集:一份全面的指南

对于机器学习(ML)和数据科学项目来说,找到正确的数据集有时会让人感到气馁。我们整理了一份详尽的免费数据集列表,希望能帮您节省宝贵的搜寻时间。

数据集本质上是数据的集合,它可以涵盖各种领域,例如金融、公共卫生、股票市场、银行业务、地理信息、粒子科学研究,甚至是电商网站上的产品评价。

这些数据集通常通过严谨的科学调查方法收集,对于数据的进一步可视化、分析、预测等至关重要。由于数据在数字时代如同原油般重要,数据集的商业价值日益凸显,同时也变得越来越稀缺。

接下来,我们将深入探讨数据集的基本概念,并为您揭示一些真正免费且开源的数据集,它们将为您的机器学习或数据科学项目提供坚实的基础。

什么是数据集?

数据集是结构化和组织化的数据集合。通常,研究人员会将数据集与特定的机构联系起来,例如世界银行开放数据平台。

同样地,数据收集者也会维护特定主题的数据集,例如美国人口普查局发布的2020年美国人口普查数据。

你会发现大量关于全球和地区问题的数据集。大多数数据集包含相互关联的数据点。例如,一个国家的人口以及肥胖与该人口的不同类别之间的关系。

数据科学家可能需要使用大数据工具来清理、重组和处理这些数据集,以得出有价值的结论,例如分析塑料使用数据以减少塑料浪费,分析工资数据以解决劳动力问题,或训练人工智能(AI)模型等等。

数据集的类型

根据数据的来源,数据集可以分为公共数据集和私有数据集。公共数据集对所有人开放,并为科学研究和开发做出了重要贡献。

此外,根据其中包含的信息,数据集还可以分为以下几种类型:

  • 多变量:包含多个变量的数据集。
  • 分类:将数据划分为多个类别。
  • 数值:以年龄、身高、体重等数值形式表示的数据。
  • 相关性:数据点之间存在相互关联的数据集。
  • 文件型:数据存储在文件中的数据集。
  • 双变量:包含两个变量及其关系的数据集。
  • 网络数据集:从一个或多个互联网门户收集的数据。
  • 数据库:数据存储在表格、列和行中的数据集。

数据科学项目的开源数据集

免费数据集是激发你数据科学热情的燃料。如果你正处于数据科学职业生涯的早期阶段,你可能会希望承担一些个人项目或非商业项目来建立自信或创建个人作品集。

首先,你可以通过将所学的工具和技术应用于真实世界的数据集问题,来轻松测试你的新技能。

例如,有免费提供的癌症研究数据、新冠肺炎数据、联邦调查局犯罪记录数据以及来自欧洲核子研究中心(CERN)的粒子分析数据等。你可以利用这些数据构建数据科学模型,以解决重要的社会、金融和健康问题。

其次,这些项目可以成为你职业生涯的助推器。如果你能成功构建一个能提供可行性见解的数据分析模型,你就可以通过创建个人作品集网站来在线展示这些模型。与求职信相比,雇主更喜欢实际项目。

机器学习项目的免费数据集

与数据科学专业人士一样,机器学习(ML)从业者也需要进行自我管理的项目,以检验他们的技能。如果项目成功,它也将成为你线上或线下机器学习作品集中的理想组成部分。

因此,你现在可以理解数据科学和机器学习的发展依赖于结构化的数据集。如果这些数据集过分商业化,数据科学领域的研究和发展将完全以企业为中心。

为了保持数据科学和机器学习研究对所有人开放,以下机构、组织和平台提供了免费的数据集:

Data.gov

在这里,您可以找到美国政府收集和处理的所有公开数据。Data.gov还提供了用于研究、设计数据可视化、开发移动/Web应用程序等工具和资源。

其著名的数据集包括可持续土地利用数据、农村住房数据、内陆电子导航图等。

Kaggle 开放数据集

Kaggle为数据科学项目提供了大量的公共数据和计算机代码。您可以选择用于原始数据的数据集,以及用于编程的代码。Kaggle上受欢迎的数据集包括AMEX数据、辛普森一家收视率数据和聊天机器人训练数据等。

YouTube 8-M 分段数据集

YouTube 8-M中的分段数据集为您提供由人工审核员验证的分段注释。你也可以从同一门户访问YouTube-8M数据集。该数据集包含610万个视频ID、35万小时的视频、26亿个音频/视频特征、3863个视频类别,平均每个视频有3.0个标签。

AWS 上的开放数据注册表

AWS上的开放数据注册表 (ROD) 帮助数据科学家共享和发现托管在AWS资源上的数据集。你可以在这里找到一些有趣的数据集,例如癌症基因组图谱、Foldingathome COVID-19数据集和Common Crawl等。

UCI机器学习存储库

UCI机器学习存储库目前维护着622个数据集,适合数据科学家和机器学习工程师训练其人工智能模型。此外,还提供了一个可搜索的界面,用于研究数据库。受欢迎的数据集包括加速度计数据集、同步机数据集、维基百科数学基础和土耳其头条新闻数据集等。

Google Cloud BigQuery 公共数据集

许多公共数据集都存储在BigQuery上。谷歌通过其谷歌云公共数据集计划免费提供这些数据集。但是,免费查询每月有1TB的限制。您可以使用标准的SQL和旧版SQL查询。

GitHub上优秀的公共数据集

Awesome Public Datasets是一个开源的数据集集合,其中包含按主题划分的公共数据。它汇集并整理了各种博客、问答和用户反馈,结合了物理、体育、软件、自然语言和机器学习方面的免费和付费数据集。

世界银行数据

世界银行开放数据是一个免费访问全球发展数据的平台。它还提供其他有价值的资源,例如预先格式化的表格和报告。你可以轻松地按国家或指标浏览以获取所需的数据集。

FiveThirtyEight 数据

FiveThirtyEight是一家美国网站,涉及民意调查分析、政治、经济和体育。您可以通过其平台上的数据集访问这些民意调查和预测。您可以一键下载数据集。

ImageNet

ImageNet是一个图像数据库,世界各地的研究人员可以从中获取用于其非商业项目的开源数据集。在这里,图像是根据WordNet的层次结构组织的。该项目在高级深度学习研究中发挥着至关重要的作用。

联合国儿童基金会数据档案

使用数据集档案,你可以获得联合国儿童基金会在世界各地收集的数据集。这里提供了关于移民、流离失所、饮食、连通性、教育、健康、学习、死亡率、暴力、儿童发展、童婚、童工和各种统计数据的数据。

英国政府开放数据

如果您的项目需要当地机构和英国中央政府发布的数据,Find Open Data 是您应该查看的门户网站。它涵盖了政府支出、商业、健康、教育、国防以及更多数据集。

美国人口普查局数据

你需要美国人口普查数据来支持你的项目吗?你可以从美国人口普查局(USCB) 数据获得帮助。在这里,你可以探索2020年的人口普查数据、表格、地图和数据分析资料,同时可视化数据并使用相关工具。

疾病预防控制中心(CDC)数据和统计

美国联邦机构疾病预防控制中心(CDC)也向公众提供免费数据集,方便从该门户网站访问数据和统计信息。数据集的主题包括环境健康、慢性病、出生与出生、死亡与死亡率、预期寿命、伤害与暴力、生殖健康、国家法定传染病等。

麻省理工学院数据集

此数据集专注于涡激振动数据。麻省理工学院的海洋工程中心拥有一系列公开可用的数据集,用于计算机代码基准测试。该数据集对所有人开放,以鼓励数据中的新理论,并同步在同一领域工作的研究人员。

世界银行数据目录

数据目录收集了免费的数据集,使世界银行与发展相关的数据易于访问。它在各种项目中的使用非常简单,因为你可以轻松地找到并下载你所需的信息。它包含超过5000个数据集,涵盖了世界银行的微观数据、金融和能源平台。

美国宇航局(NASA)空间科学数据

美国宇航局(NASA) 提供了对其在空间科学数据协调档案中的档案数据的访问权限。该平台对于广大公众,特别是那些从事教育和空间研究工作的人来说,非常有帮助。它拥有400TB的数字数据,其中包含关于550项空间科学任务的信息。

Airbnb 数据

Airbnb是一个全球知名的在线寄宿家庭和度假租赁市场。它还提供了来自“获取数据”的数据集,这些数据集涵盖了全球各个城市的数据。你可以浏览整个城市来快速获取数据。此外,你还可以在此门户上请求你所需的数据并阅读数据假设。

亚马逊产品评论数据

那些对市场研究和产品评论感兴趣的人可以使用Snap Web Data提供的数据集。该数据集包含从1995年6月到2013年3月亚马逊上超过3400万条用户评论。数据集包含纯文本、产品信息、用户名、评分和评论。

国际货币基金组织(IMF)数据

国际货币基金组织(IMF) 数据门户对所有经济和金融数据类型都很有价值。无论您是在搜索IMF财务数据、外部部门统计数据、旗舰出版物还是宏观经济数据,您都可以在这里找到它们。此外,你还可以使用过滤器来获取国家数据。

谷歌图书 Ngram

如果你正在研究词类和语言,谷歌图书Ngrams可以为你提供极大的帮助。这个开源数据集让你了解在整个历史或特定时间范围内使用特定单词和短语的情况。该数据集的来源是谷歌索引的数字化文档。

金融时报市场数据

如果你想获得可靠且准确的全球和地区股票市场数据,《金融时报》的“市场数据”可以提供帮助。它可以让你处理来自美洲、亚太地区、欧洲、非洲和全球市场的市场数据。

美国宇航局地球数据

美国宇航局(NASA)通过地球数据计划提供对其科学数据的全面开放访问,帮助你了解我们居住的星球并利用它来开展项目。你可以找到关于大气、生物圈、冰冻圈、人类维度、地表、海洋、固体地球、日地相互作用和陆地水圈的免费数据集。

谷歌数据集搜索

如果你是一名正在寻找数据集来支持项目的学生、研究人员或数据科学家,你可以从“数据集搜索”门户网站获得帮助。你可以将其称为数据集搜索引擎,因为它允许你通过关键词搜索来发现托管在网络各种报告中的数据集。

欧洲核子研究中心(CERN)开放数据

欧洲研究组织欧洲核子研究中心(CERN)拥有一个开放数据门户,你可以使用该门户来访问CERN研究产生的数据。该数据集门户包含2PB与粒子物理学相关的数据。此外,它还附带了数据分析所需的应用程序和文档。

联邦调查局犯罪数据探索者

犯罪数据浏览器(CDE)是联邦调查局(FBI)的开源数据集,旨在提供对犯罪、非犯罪和执法数据共享的更轻松访问。除了允许你通过可视化和类别筛选发现必要的数据之外,该平台还允许你以CSV格式下载数据。

总结

以上是一份详尽的高质量数据集列表,它们涵盖了物理科学、医疗记录、空间研究、犯罪记录和产品评价等各个领域。你可以根据自己从事的数据科学或机器学习项目来自由选择。几乎所有的数据集都提供了详细的说明,以帮助你完成项目。

您可能还对这些资源感兴趣,以学习数据科学和机器学习。