Apache软件基金会终于推出了最新的Hadoop 2数据分析平台。Hadoop 2通过支持YARN数据处理和服务引擎,增强了它的计算引擎,同时为Hadoop File System (HDFS)添加高可用特性。 尽管一些Hadoop发行版中已经对HDFS进行了升级,例如Cloudera,而且一些公司如Pivotal也提供YARN支持有半年的时间了,但是Apache公开发布这个版本将为用户处理数据提供更强的信心。 Pivotal公司首席科学家Milind Bhandarkar表示:“全面发布的功能特性让用户能够确保这些面向用户的API和YARN协议是稳定的,在Hadoop下一代主要版本出现之前不会发生变化,这也是的仍然更放心地构建应用和使用这些API。” YARN带来了巨大的改变,改变了Hadoop计算组件(MapReduce)切分和重新组成处理任务的方式,因为YARN将MapReduce的追踪组件切分成两个不同部分:资源管理器,以及应用调度。 这让数据整理工具更轻松地同时运行MapReduce或者Storm这样的任务,以及HBase等服务。 Hadoop共同创始人之一Doug Cutting表示:“它使得其他不是MapReduce的工作负载现在可以更有效地与MapReduce分享资源。现在这些系统可以动态地分享资源,资源也可以设置优先级。” Cuuting和Bhandarkar都承认,这种方法是受到了Apache项目“Mesos”集群管理系统以及谷歌Borg和Omega秘密项目的一些影响。 |