设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

对Hadoop目前使用情况的调查和采访

2013-12-20 11:05| 发布者: joejoe0332| 查看: 2769| 评论: 0|原作者: Boris Lublinsky|来自: infoQ

摘要:   我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和Internet的可达性正在日益增长,同时比以往任何时候更多的 数据正在被传输和收集。组织正在以惊人的速度产生数据。仅Facebook自 ...

  我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和Internet的可达性正在日益增长,同时比以往任何时候更多的 数据正在被传输和收集。组织正在以惊人的速度产生数据。仅Facebook自己每天就会收集250 TB的数据。Thompson Reuters News Analytics显示,现在数字数据的产生量比2009年接近1 ZB(1 ZB等同于一百万PB)的量增长了两倍多,到2015年将有可能达到7.9 ZB,到2020年则有可能会达到35 ZB。


  随着组织已经开始收集并产生大量的数据,他们也开始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所说:

拥有大量数据但是没有大量线索的公司将会被虽然拥有更少的数据但是有更多线索的创业公司所取代…


  这意味着除非你的业务理解它所拥有的数据,否则它将不能与理解这些数据的企业竞争。企业已经意识到:分析与商业竞争、态势感知、生产力、科学和创新相关的大数据能够获得巨大的收益。同时现在大部分公司将Hadoop作为自己分析大数据和掌握大数据挑战的一个主要工具。


  根据Hortonworks的调查,Hadoop现在已经被很多大型主流组织所部署(50%的调查对象来自于收入超过$500M的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。


  大部分情况下,Hadoop并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop通常会与已有的系统互补,它挖掘额外的业务数据, 同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54%的调查对象正在利用Hadoop捕获新型数据,同时还有48%的人打 算这样做。主要的新型数据包括:

  • 服务日志数据,能够让IT部门更好地管理他们的基础设施(64%的调查对象已经这样做了,同时还有28%正计划这样做)。
  • 点击流数据,能够让你更好地理解客户是如何使用应用程序的(52.3%的调查对象已经这样做了,同时还有37.4%正计划这样做)。
  • 社交媒体数据,能够让你了解公众对公司的看法(36.5%的调查对象已经这样做了,同时还有32.5%正计划这样做)。
  • 地理/位置数据,能够用来分析旅行模式(30.8%的调查对象已经这样做了,同时还有26.8%正计划这样做)。
  • 机器数据,能够用来分析机器的使用情况(29.3%的调查对象已经这样做了,同时还有33.3%正计划这样做)。


  根据调查,传统数据的平均增长率大约是每年8%,而新型数据的增长率则超过了85%,因此离开了Hadoop几乎不可能收集并处理它们。


  InfoQ有幸能够与Hortonworks公司的市场副总裁David McJannet一起讨论该调查的结果。


  InfoQ根据此次调查的结果,好像Hadoop应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的Hive/SQL查询。你认为这种趋势将会继续么?


  McJannet我认为Hadoop在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop是整体数据架构的基础,同时这些公司现在也已经广泛使用Hadoop。但是在2013年我们发现它开始真正地扩大,这从Hadoop Summit的调查报告中就可以看出来。


  让我们思考一下驱动采用率迅速攀升的原因,我认为至少有3个明确的因素:


  1. 对Hadoop用例有了更好的理解。实际上这一点在调查结果中有所表现,结果显示2个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理长期增长的数据。
  2. 技术本身的快速发展继续简化了使用,同时也为大规模推广创造了条件。Hadoop 2在很多方面都有巨大的进步,同时它还吸收了广大社区几年来的工作。
  3. 市场上的供应商拥抱该生态系统。例如,Microsoft所做的工作允许Excel用户直接连接到Hortonworks 数据平台(HDP)上拉取数据进行分析。而更加复杂的分析通常会在SAS这样的工具中完成,为了将SAS分析工具连接到HDP上他们作了非常深入的工作。 这使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就不知道他们正在使用Hadoop。


  InfoQ你认为应用Hadoop的下一步是什么?你会如何定义像Hortonworks这样的公司或者供应商在该过程中的角色?


  McJannet我看到了一个与企业使用非常一致的模式:大部分用户最初采用Hadoop的目的是创建一个新型分析 系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成功之后,数据架构团队会意识到Hadoop在整个数 据架构中的价值,进而将推动Hadoop下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于Hortonworks,我认为我们的角色是 让Hadoop市场能够运行起来:


  1. 联合该生态系统中的其他组织确保开源的Hadoop能够持续地在开源领域发展同时为所有人服务
  2. 提供一个真正的已经经过大规模集成和测试的企业级平台,同时合并开源社区最近的创新。
  3. 确保它与用户已有的工具和技术的集成性和互操作性。这就是为什么我们会努力工作以确保HDP可以与来自于HP、Microsoft、 SAP、SAS、Teradata等公司的技术进行认证的原因——事实上,现在所有的这些合作伙伴都将HDP作为他们产品中的一个组件进行转售。一般来 说,大多数组织所依赖的供应商依赖于Hortonworks针对Hadoop研发的相关产品,这种方式能够让整个市场更快地运行和成熟。



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部