面向初学者的 Amazon EMR (Elastic MapReduce) 简介

0 Shares

当今计算能力的巅峰及其发展

当今时代，计算能力正处于前所未有的高度，并持续快速增长。过去三十年间，计算机经历了显著的演变和进步，尤其是在数据处理速度和多任务处理能力方面。

试想一下，如果将任务分散到多台计算机上并行执行，性能提升将会多么惊人？这就是分布式计算的魅力，它如同计算机之间的协同合作。

或许您会好奇，为何要探讨分布式计算？因为它与亚马逊弹性MapReduce (Elastic MapReduce, 简称EMR) 密切相关。亚马逊云服务(AWS)的EMR服务正是利用分布式计算的原理，在云端高效处理和分析海量数据。

借助亚马逊EMR，您现在可以在S3等存储实例上，运用您选择的分布式处理框架，轻松分析和处理庞大的数据集。

亚马逊EMR的工作机制

首先，数据被导入到数据存储中，例如 Amazon S3、DynamoDB 或其他 AWS 存储平台。这些平台都与 EMR 具有良好的集成性。

接下来，您需要选择一个大数据框架，对数据进行处理和分析。有多种框架可供选择，如 Apache Spark、Hadoop、Hive 和 Presto 等。您可以根据实际需求选择合适的框架，并将其上传至您所选择的数据存储。

EMR 创建 EC2 实例的集群，这些实例可以并行处理和分析数据。您可以根据需要配置节点的数量和其他参数。

主存储会将数据和所选的框架分配到这些节点，数据块在这些节点上被独立处理，然后再将处理结果进行汇总。

当所有处理任务完成后，您可以终止集群，释放所有已分配的计算资源。

亚马逊EMR的优势

任何规模的企业，都倾向于选择具有成本效益的解决方案。那么，为何不考虑经济实惠的亚马逊EMR呢？它能够简化在 AWS 上运行各类大数据框架的复杂性，提供了一种便捷的方式来进行数据处理和分析，同时还能节省开支。

弹性： 从 “Elastic MapReduce” 这个名称就可以看出，亚马逊EMR具有出色的弹性。这意味着您可以根据实际需求，手动或自动调整集群的大小。例如，您可能最初只需要 200 个实例来处理数据，但在几小时后可能需要 600 个。因此，当您需要快速适应需求变化的可扩展性时，亚马逊EMR 是理想的选择。
数据存储： 亚马逊 EMR 可以与 Amazon S3、Hadoop 分布式文件系统、Amazon DynamoDB 或其他 AWS 数据存储无缝集成。
数据处理工具： 亚马逊 EMR 支持包括 Apache Spark、Hive、Hadoop 和 Presto 在内的多种大数据框架。更重要的是，您还可以利用这些框架运行深度学习和机器学习算法及工具。
经济高效： 与其他商业产品不同，亚马逊EMR允许您仅按小时为所使用的资源付费。此外，您还可以选择适合您预算的不同定价模型。
集群定制： 该框架允许您自定义集群中的每个实例。此外，您还可以将大数据框架与适合的集群类型配对。例如，Apache Spark 和基于 Graviton2 的实例可以组成优化的 EMR 性能组合。
访问控制： 您可以利用 AWS Identity and Access Management (IAM) 工具来控制 EMR 中的权限。例如，您可以允许特定用户编辑集群，而其他用户只能查看集群状态。
集成： EMR 可以与所有其他 AWS 服务无缝集成。借助这一功能，您可以在 EMR 中获得虚拟服务器的强大功能、强大的安全性、可扩展的容量和分析能力。

亚马逊EMR的用例

1. 机器学习

使用亚马逊EMR中的机器学习和深度学习功能来分析数据。例如，在健康相关数据上运行各种算法，以跟踪多种健康指标，如体重指数、心率、血压、脂肪百分比等，这对开发健身追踪器至关重要。这些都可以在 EMR 实例上更快、更高效地完成。

2. 执行大型数据转换

零售商通常会提取大量的数字数据来分析客户行为并改善业务。同样，亚马逊EMR 将能够高效地提取大数据并使用 Spark 执行大型数据转换。

3. 数据挖掘

想要处理需要很长时间才能处理的数据集吗？亚马逊 EMR 专门用于复杂数据集的数据挖掘和预测分析，尤其是在非结构化数据的情况下。此外，其集群架构非常适合并行处理。

4. 研究目的

利用名为亚马逊 EMR 的经济高效的框架来完成您的研究。由于其可扩展性，您在 EMR 上运行大型数据集时很少会遇到性能问题。因此，该框架非常适合大数据研究和分析实验室。

5. 实时流处理

亚马逊EMR的另一个主要优势是支持实时流处理。使用亚马逊EMR上的 Apache Kafka 和 Apache Flink，可以构建可扩展的实时流数据管道，用于在线游戏、视频流、流量监控和股票交易等应用。

EMR 与 Amazon Glue 和 Redshift 的区别

AWS EMR 与 Glue

Amazon EMR 和 Amazon Glue 这两项强大的 AWS 服务在数据处理方面都备受青睐。

Amazon Glue 可以快速高效地从各种来源提取数据、转换数据并将其加载到数据仓库，而 Amazon EMR 可以帮助您使用 Hadoop、Spark、Hive 等处理大数据应用程序。

简而言之，AWS Glue 可让您收集和准备数据以供分析，而 Amazon EMR 可让您处理这些数据。

EMR 与 Redshift

设想一下，您可以不断地浏览数据并轻松查询它。 SQL 是您经常用来执行此操作的工具。同样，Redshift 提供优化的在线分析处理服务，可以使用 SQL 轻松查询大量数据。

在存储数据时，您可以使用 S3 和 DynamoDB 等第三方存储提供商访问高度可扩展、安全且可用的 Amazon EMR。相比之下，Redshift 有自己的数据层，允许您以柱状格式存储数据。

亚马逊EMR的成本优化方法

1. 使用格式化数据

数据越大，处理时间就越长。直接将原始数据输入集群会使事情变得更加复杂，需要更多时间来找到您想要处理的部分。

因此，使用格式化数据能够节省搜索和聚合时间，因为格式化数据附带有关列、数据类型、大小等的元数据。此外，通过利用数据压缩技术来减小数据大小，因为处理较小的数据集相对更容易。

2. 使用经济实惠的存储服务

利用经济高效的主存储服务可以降低您的主要 EMR 支出。 Amazon S3 是一种简单且经济实惠的存储服务，用于保存输入和输出数据。其即用即付模式仅针对您使用的实际存储空间收费。

3. 选择适当的实例大小

使用具有适当大小的实例可以显著减少在 EMR 上的花费。 EC2 实例通常按秒计费，价格随其大小而变化。但无论您使用 0.7 倍大型集群还是 0.36 倍大型集群，管理它们的成本都是相同的。因此，与使用多台小型机器相比，有效地利用大型机器更具成本效益。

4. 使用竞价型实例

竞价型实例是以折扣价购买未使用的 EC2 资源的绝佳选择。与按需实例相比，这些实例更便宜，但不是永久性的，因为当需求增加时，这些资源会被收回。因此，它们适合容错应用，但不适合长时间运行的作业。

5. 使用自动缩放

自动缩放功能可以避免集群规模过大或过小。这使您可以根据工作负载在集群中选择正确的实例数量和类型，从而优化成本。

总结

云和大数据技术在不断发展，为您提供无尽的工具和框架供您学习和使用。亚马逊EMR 恰好是这样一个同时利用大数据和云的平台，因为它简化了运行大数据框架来处理和分析海量数据的复杂性。

为了帮助您开始使用EMR，本文向您展示了 EMR 是什么、它的优势、工作原理、用例以及具有成本效益的方法。

接下来，您可以继续了解有关 AWS Athena 的相关信息。