13个让大象飞起来的开源工具

2014-1-2 13:15| 发布者: joejoe0332| 查看: 3725| 评论: 0|原作者: 仲浩|来自: CSDN

摘要: Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理 ...

　　Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。因此，各种基于Hadoop的工具应运而生，本次为大家分享Hadoop生态系统中最常用的13个开源工具，其中包括资源调度、流计算及各种业务针对应用场景。首先，我们看资源管理相关。

　　资源统一管理/调度系统

　　在公司和机构中，服务器往往会因为业务逻辑被拆分为多个集群，基于数据密集型的处理框架也是不断涌现，比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4，它们诞生于不同的实验室，并各有所长。为了减少管理成本，提升资源的利用率，一个共同的想法产生——让这些框架运行在同一个集群上；因此，就有了当下众多的资源统一管理/调度系统，比如Google的Borg、Apache的YARN、Twitter的Mesos（已贡献给Apache基金会）、腾讯搜搜的Torca、 Facebook Corona（开源），本次为大家重点介绍Apache Mesos及YARN：

1. Apache Mesos

代码托管地址： Apache SVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目，使用ZooKeeper实现容错复制，使用Linux Containers来隔离任务，支持多种资源计划分配（内存和CPU）。提供Java、Python和C++ APIs来开发新的并行应用程序，提供基于Web的用户界面来提查看集群状态。

2. Hadoop YARN

代码托管地址： Apache SVN

YARN又被称为MapReduce 2.0，借鉴Mesos，YARN提出了资源隔离解决方案Container，但是目前尚未成熟，仅仅提供 Java 虚拟机内存的隔离。

对比MapReduce 1.x，YARN架构在客户端上并未做太大的改变，在调用 API 及接口上还保持大部分的兼容，然而在YARN中，开发人员使用 ResourceManager、ApplicationMaster 与 NodeManager代替了原框架中核心的 JobTracker 和 TaskTracker。其中 ResourceManager 是一个中心的服务，负责调度、启动每一个 Job 所属的 ApplicationMaster，另外还监控 ApplicationMaster 的存在情况；NodeManager负责 Container 状态的维护，并向 RM 保持心跳。ApplicationMaster 负责一个 Job 生命周期内的所有工作，类似老的框架中 JobTracker。

　　Hadoop上的实时解决方案

　　前面我们有说过，在互联网公司中基于业务逻辑需求，企业往往会采用多种计算框架，比如从事搜索业务的公司：网页索引建立用MapReduce，自然语言处理用Spark等。本节为大家分享的则是Storm、Impala、Spark三个框架：

3. Cloudera Impala

代码托管地址： GitHub

Impala是由Cloudera开发，一个开源的Massively Parallel Processing（MPP）查询引擎。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax)，可以直接在HDFS或HBase上提供快速、交互式SQL查询。Impala是在Dremel的启发下开发的，第一个版本发布于2012年末。

Impala不再使用缓慢的Hive+MapReduce批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。

4. Spark

代码托管地址： Apache

Spark是个开源的数据分析集群计算框架，最初由加州大学伯克利分校AMPLab开发，建立于HDFS之上。Spark与Hadoop一样，用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现，使用Scala作为应用框架。

Spark采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是，Spark和Scala紧密集成，Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务，实际上可以在Hadoop文件系统上与Hadoop一起运行（通过YARN、Mesos等实现）。

5. Storm

代码托管地址： GitHub

Storm是一个分布式的、容错的实时计算系统，由BackType开发，后被Twitter捕获。Storm属于流处理平台，多用于实时计算并更新数据库。Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。

12 / 2 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：Debian争论选择systemd还是upstart下一篇：英特尔底层优化助力搜狐开源云平台

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

13个让大象飞起来的开源工具

Hadoop上的实时解决方案

最新评论

　　Hadoop上的实时解决方案