十八款Hadoop工具帮你驯服大数据

2013-12-13 14:43| 发布者: joejoe0332| 查看: 8055| 评论: 0|原作者: 核子可乐译|来自: 51CTO.com

摘要: Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如雨后春笋般围绕它建立起来。有 ...

　　Hadoop上的SQL

　　如果大家希望在自己的大型集群当中对全部数据来一次快速的临时性查询，正常来说需要编写一个新的Hadoop作业，这自然要花上一些时间。过去程序员们多次掉进过这同一个坑里，于是大家开始怀念老式SQL数据库--利用相对简单的SQL语言，我们就能为问题找到答案。从这一思路出发，众多公司开发出一系列新兴工具，这些方案全部指向更为快捷的应答途径。

　　其中最引人注目的方案包括：HAWQ、Impalla、Drill、Stinger以及Tajo。此类方案数量众多，足够另开一个全新专题。

　　云计算

　　很多云平台都在努力吸引Hadoop作业，这是因为其按分钟计算租金的灵活业务模式非常适合Hadoop的实际需求。企业可以在短时间内动用数千台设备进行大数据处理，而不必再像过去那样永久性购入机架、再花上几天或者几周时间执行同样的计算任务。某些企业，例如Amazon，正在通过将JAR文件引入软件规程添加新的抽象层。一切其它设置与调度工作都可由云平台自行完成。

　　上图所示为Martin Abegglen在Flickr上发表的几台刀片计算机。

　　Spark