设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

谷歌新平台Impala成为数据处理界新宠

2013-12-19 14:04| 发布者: joejoe0332| 查看: 1973| 评论: 0|原作者: 中关村在线|来自: 中关村在线

摘要: 亚马逊云服务添加了对一项新服务impala的支持,这是由谷歌激发的查询工具,由大数据储存公司 cloudera 发布,可提供实时的平行大数 据处理。有impala的帮助,开发者现在可以在aws 弹性 mapreduce 簇使用类似sql的语 ...
  亚马逊云服务添加了对一项新服务impala的支持,这是由谷歌激发的查询工具,由大数据储存公司 cloudera 发布,可提供实时的平行大数 据处理。有impala的帮助,开发者现在可以在aws 弹性 mapreduce 簇使用类似sql的语言查询新的,或者访问已有的数据。它更快,更具 可操作性,而且反映了开源的内容分发系统hadoop 使用的增长。更进一步地讲,它折射了谷歌怎样深度影响市场和开发者,来创建新的数据平台,和潜在的 更丰富应用生态系统。

  去年推出的impala架设在谷歌的dremel服务基础上,这是这家搜索公司此前的大数据分析工具 mapreduce的后续产品,mapreduce是谷歌开发用来在其广阔的云空间中进行数据存储查询的技术。apache drill同样架设在 dremel平台上。hortonworks发布了 tez,这是他们stinger initiative的一部分,其设计让它可以和搜索hadoop 数据库应用系统 hive一同工作。hortonworks公司表示,它能够以高效率处理pb级别的海量数据,同时使用熟悉的sql语法,速度比以前快一 百倍。


  citus data有基于谷歌dremel平台的自有分析数据库,他们的创新是使用postgressql核心当中的平行计算 来进行搜索。mapr同时提供对drill的支持。 jethrodata是基于hadoop的分析数据库公司,可以提升dremel项目的优先级。


  hadapt将以上所有公司与其“可接受性分析平台”(adaptive analytical platform)联系起来,这带入了像apache hadoop开源项目sql数据库的原生移植。


  为什么dremel系统是新的驱动力


   hadoop对twitter这样的互联网企业是一项重要的技术,可以pb级别处理巨型数据。对于突然涌入空前数量的信息需要处理的传统企业也是很重要 的,并且其重要性正不断增强。对于新一代的用户impala是有用的,这给了他们一种处理数据的新方式,之前这需要很高深的技术知识储备。


   hadoop过去曾经是难以掌握的复杂技术,需要人们有多种能力,才能发挥它的潜质。这些人是那些掌握了编程艺术的原始数据科学家,他们可以管理和进行 数据分析。他们出现在互联网公司,这些公司需要开发他们自己的方式,来处理和分析他们服务器储备的大量数据。例如jeff hammerbacher离开 了facebook成为cloudera的一个联合创始人。doug cutting创建hadoop是在他还在雅虎的时候,他在那里原本要开发一个开源 的基于lucene的搜索引擎。cutting现在同样也在cloudera工作。


  谷歌通过mapreduce领导全局,这将整个数据集看作一个簇,可以平行处理数据。它在簇之间对数据进行地图定位,接下来减少定位数量以应答问题。


  dremel就是改良的mapreduce,代表了下一代hadoop技术的一个基石。它加强了一个正在成长的开源项目生态系统,其中包括hive和pig——所有这些都被设计使用更高级别的语言来降低mapreduce的复杂性。


  dremel的强势功能在于其及时分析,但主要攻克的方向是查询。姐妹版本google f1是一个大量相关性数据库,原本设计是为了管理谷歌在线广告业务。


  impala的价值体现在其分析方面的天赋,这是为什么它被看作是类似视觉形象化工具tableau的商业分析商业智能工具的一个天然补充。分析师们可以使用impala快速查询数据,接下来在tableau等商业智能工具当中运行并诠释这些数据。


   hadoop尚未被大量接受作为应用开发的平台,但这可能会改变,因为impala正在更广泛地使用,新的公司正在加入hadoop环境。到今年早些时 候hadoop发布最新版本时,证据更加明显。新版本加入了 yarn 功能,这是用来精简mapreduce令其作为一个计划生成器和资源管理器。它同 时扩展了hadoop之前能做的事情的范围。


  hadoop将会开发一个应用生态系统,证据同时存在于impala和yarn里面,两者 都简化了很多,为最终用户提供了更深层应用的能力。接下来,还有专门为hadoop准备的应用框架cascading,现在已经成功进入商业运作。客户包 括twitter, etsy和airbnb。


  谷歌曾经在这一领域长时间领先,但是hadoop以及其平台层的创新表示,谷歌和其竞争对手之间的差距正在不断缩小。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部