Amazon Elastic MapReduce (Amazon EMR) 是一种 Web 服务,提升企业、研究人员、数据分析师和开发人员轻松、经济高效掌控海量数据的能力。它是一种托管的 Hadoop 框架服务,并且运行在 Web 规模的 Amazon Elastic Compute Cloud (Amazon EC2) 和 Amazon Simple Storage Service (Amazon S3) 基础架构上面。
Amazon Elastic MapReduce 能即时灵活配置自身所需容量大小,执行数据密集型应用计算,完成 Web 索引、数据挖掘、日志文件分析、数据仓库、机器学习、财务分析、科学模拟和生物信息研究任务。Amazon Elastic MapReduce 技术让专注于数据分析,无需担心费时的 Hadoop 集群设置、管理或调整,也无需担心所需要的计算能力。
可调整大小的集群
在 Amazon EMR 上运行 Hadoop 集群时,可以非常容易地根据处理需求增减集群中的虚拟服务器数量。添加或删除服务器会花费时间,但也比在物理服务器上运行的集群中进行类似的更改要快得多。
仅按实际用量付费
通 过在 Amazon EMR 上运行集群,只需支付所使用计算资源的费用。无需支付硬件维修和升级方面的日常开销,也不必为了满足峰值需求而预先购买额外的容量。例如,如果每天 的集群处理数据量在星期一达到峰值,那么,可以将星期一的集群服务器数量添加到 50 个,而将每周的其他天数内的集群服务器降低到 10 个。在每周的其他天数内,不必像在使用物理服务器的情况下那样支付其他 40 个服务器的维护费用。
易于使用
在 Amazon EMR 上启动集群时,Web 服务会分配虚拟服务器实例,并为配置好必需的软件。在几分钟内,就可以拥有一个配置完毕的、随时可运行 Hadoop 应用程序的集群。
使用 Amazon S3 或者 HDFS
Amazon EMR 集群上安装的 Hadoop 版本是与 Amazon S3 集成的,这意味着可以将输入数据与输出数据存储在 Amazon S3 中、集群上的 HDFS 中或者混合存储在两者之中。可以从 Amazon EMR 集群上运行的应用程序中以文件系统的方式访问 Amazon S3。
平行集群
如果输入数据存储在 Amazon S3 中,那么,拥有的多个集群可以同时访问相同的数据。
Hadoop 应用程序支持
可以在 Amazon EMR 中使用流行的 Hadoop 应用程序,如 Hive、Pig 和 HBase。
借助竞价型实例节省成本
竞价型实例提供了一种打折购买供集群使用的虚拟服务器的方法。在 Amazon Web Services 中,多余容量是根据供需情况按浮动价格提供的。设置一个自己希望为某一虚拟服务器配置支付的最高出价。当该类服务器的竞价型实例价格低于出价时,这 些服务器就添加到集群,并按现货价格费率给计费。当现货价格上涨并超过出价时,这些服务器会终止运行。