设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

对比Hadoop:分析Spark受多方追捧的原因

2014-3-27 14:25| 发布者: joejoe0332| 查看: 2886| 评论: 0|原作者: 王玉平|来自: 天极网

摘要: 作为通用的并行处理框架,Spark具有类似Hadoop的一些优点,而且Spark采用了更好的内存管理,在迭代计算上具有比Hadoop更高的效 率,Spark还提供了更为广泛的数据集操作类型,大大方便了用户的开发,checkpoint的应用 ...


  Spark流——微批处理的回归


  Spark还配有一个流数据处理模型,这当然让我很感兴趣。还有一篇对设计总结得很漂亮的 论文。与Twitter的 Storm框架相比,Spark采用了一种有趣而且独特的办法。Storm基本上是像是放入独立事务的管道,在其中事务会得到分布式的处理。相反,Spark采用一个模型收集事务,然后在短时间内(我们假设是5秒)以批处理的方式处理事件。所收集的数据成为他们自己的RDD,然后使用Spark应用程序中常用的一组进行处理。


  作者声称这种模式是在缓慢节点和故障情况下会更加稳健,而且5秒的时间间隔通常对于大多数应用已经足够快了。对于这一点,我不太确定,因为分布式计算总是很复杂,我不相信你能随意说有些东西是就比其他人的好。这种方法也很好地统一了流式处理与非流式处理部分,这一点是千真万确的。


  结束语


  Spark在我看来还是很有前途的,加上Spark被给予的支持和获得的关注,我坚信它将成熟起来并将在这个领域扮演更加重要的角色。当然,它不可能适用于所有场景,正如作者承认的那样,基于RDD稳定性只更改很少条目的操作就不适合。原则上,你必须对整个数据集备份,即使你只是想要更改一个条目。这可以很好地并行处理,但成本很高。copy-on-write在这里可能更有效,但是还未被实现。


  最上层是在TU Berlin的研究项目,有类似的目标,然而却通过更为复杂的操作(如迭代)来发展,不仅是为了容错能力存储一系列操作,而且要将它们用于全局调度优化和平行化。


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部