我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和Internet的可达性正在日益增长,同时比以往任何时候更多的 数据正在被传输和收集。组织正在以惊人的速度产生数据。仅Facebook自己每天就会收集250 TB的数据。Thompson Reuters News Analytics显示,现在数字数据的产生量比2009年接近1 ZB(1 ZB等同于一百万PB)的量增长了两倍多,到2015年将有可能达到7.9 ZB,到2020年则有可能会达到35 ZB。 随着组织已经开始收集并产生大量的数据,他们也开始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所说:
这意味着除非你的业务理解它所拥有的数据,否则它将不能与理解这些数据的企业竞争。企业已经意识到:分析与商业竞争、态势感知、生产力、科学和创新相关的大数据能够获得巨大的收益。同时现在大部分公司将Hadoop作为自己分析大数据和掌握大数据挑战的一个主要工具。 根据Hortonworks的调查,Hadoop现在已经被很多大型主流组织所部署(50%的调查对象来自于收入超过$500M的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。 大部分情况下,Hadoop并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop通常会与已有的系统互补,它挖掘额外的业务数据, 同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54%的调查对象正在利用Hadoop捕获新型数据,同时还有48%的人打 算这样做。主要的新型数据包括:
根据调查,传统数据的平均增长率大约是每年8%,而新型数据的增长率则超过了85%,因此离开了Hadoop几乎不可能收集并处理它们。 InfoQ有幸能够与Hortonworks公司的市场副总裁David McJannet一起讨论该调查的结果。 InfoQ:根据此次调查的结果,好像Hadoop应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的Hive/SQL查询。你认为这种趋势将会继续么? McJannet:我认为Hadoop在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop是整体数据架构的基础,同时这些公司现在也已经广泛使用Hadoop。但是在2013年我们发现它开始真正地扩大,这从Hadoop Summit的调查报告中就可以看出来。 让我们思考一下驱动采用率迅速攀升的原因,我认为至少有3个明确的因素:
InfoQ:你认为应用Hadoop的下一步是什么?你会如何定义像Hortonworks这样的公司或者供应商在该过程中的角色? McJannet:我看到了一个与企业使用非常一致的模式:大部分用户最初采用Hadoop的目的是创建一个新型分析 系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成功之后,数据架构团队会意识到Hadoop在整个数 据架构中的价值,进而将推动Hadoop下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于Hortonworks,我认为我们的角色是 让Hadoop市场能够运行起来:
|