十八款Hadoop工具帮你驯服大数据

2013-12-13 14:43| 发布者: joejoe0332| 查看: 8056| 评论: 0|原作者: 核子可乐译|来自: 51CTO.com

摘要: Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如雨后春笋般围绕它建立起来。有 ...

　　Sqoop

　　要将蕴藏在SQL数据库中的数据宝库发掘出来并交给Hadoop打理需要进行一系列调整与操作。Sqoop负责将饱含信息的大型列表从传统数据库中移动到Hive或者HBase等工具的控制之下。

　　Sqoop是一款命令行工具，能够控制列表与数据存储层之间的映射关系，并将列表转化为可为HDFS、HBase或者Hive所接纳的可配置组合。上图所示为Apache文档材料中的内容，可以看到Sqoop位于传统库与节点上的Hadoop结构之间。

　　Sqoop的最新稳定版本为1.4.4，但目前其2.0版本同样进展顺利。两个版本目前都可供下载，且遵循Apache许可。

　　官方网站：sqoop.apache.org

　　Pig

　　一旦数据以Hadoop能够识别的方式被保存在节点当中，有趣的分析工作将由此展开。Apache的Pig会用自己的小"猪拱"梳理数据，运行利用自有语言（名为Pig Latin）所编写的代码，并添加处理数据所需要的各种抽象机制。这样的结构会一步步指引用户走向那些易于以并行方式运行在整个集群当中的算法。

　　Pig还拥有一系列针对常见任务的标准化功能，能够轻松处理诸如数据平均值计算、日期处理或者字符串差异比较等工作。如果这些还不够用--实际上一般都不够用--大家还可以动手编写属于自己的功能。上图所示为Apache说明文档中的一项实例，解释了用户如何将自己的代码与Pig代码结合起来、从而实现数据发掘。

　　目前Pig的最新版本为0.12.0。

　　官方网站：pig.apache.org

　　ZooKeeper

　　一旦Hadoop需要在大量设备之上，集群运作的顺序就显得非常重要，特别是在其中某些设备开始签出的情况下。

　　ZooKeeper在集群中强制执行一套文件系统式的层级结构，并为设备保存所有元数据，这样我们就可以在不同设备之间进行作业同步。（上图所示为一套简单的二层式集群。）说明文档展示了如何在数据处理流程中实施多种标准化技术，例如生产方-消费方队列，从而保证数据能够以正确的顺序进行拆分、清理、筛选以及分类。当上述过程结束后，使用ZooKeeper的节点会彼此通信、并以最终生成的数据为起点开始分析工作。

　　如果大家希望了解更多信息、说明文档以及最新版本，请访问ZooKeeper的官方网站。

　　官方网站：zookeeper.apache.org

1 234 5 6 / 6 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：编译器是如何工作的?下一篇：KVM，Xen与VirtualBox性能比较

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

十八款Hadoop工具帮你驯服大数据

最新评论