设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

Spark从Apache孵化器正式毕业

2014-3-12 09:57| 发布者: joejoe0332| 查看: 2520| 评论: 0|原作者: Alex Giamas|来自: InfoQ

摘要: 近日,Spark从Apache孵化器毕业。Spark声称,与Apache Hadoop相比,它在内存数据集上的性能提升了高达100倍,而在磁盘数据集上的性能则正常回落到10倍。自2010年开源以来,Spark一直是社区中最活跃的项目之一。 ...

  近日,Spark从Apache孵化器毕业。Spark声称,与Apache Hadoop相比,它在内存数据集上的性能提升了高达100倍,而在磁盘数据集上的性能则正常回落到10倍。自2010年开源以来,Spark一直是社区中最活跃的项目之一。


  它的快速成长可以归于几个原因。为了利用众所周知的SQL语言,它可以将自身的DSLSQL相结合。Spark的基本API是一种Scala DSL,围绕名为弹性分布式数据集(RDD)的分布式项集合构建。利用分布式执行,RDD可以支持批量和聚集操作,如筛选、映射和reduceByKey。Spark可以使用Hive SQL提供具有同等执行速度的原生Scala API。重用Hive的前端和后端意味着它可以与Hive一起使用,共享数据、查询和UDFs。


  Spark使用MLib提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib只是MLBase的一个组件。MLBase是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和ML研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout类似,并针对机器学习的数据访问模式进行了优化。


  图算法可以用GraphX实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX提供了可以与Apache Giraph相媲美甚或更好的性能,而Apache Giraph则是Facebook使用的著名的图处理系统。


  SparkR向R暴露了Spark API,允许统计人员从R函数直接向Apache Spark集群提交作业。除了RDBMS之外,R是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效


  Spark可以部署在Apache YARN上,易于与异构系统集成和共存。它还是由ClouderaDatabricks支持的Cloudera企业数据中心版的一部分,其中Databricks是Spark商业化的推动者。最后,Streaming可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从GitHub上获取Spark的代码。


查看英文原文:Spark Officially Graduates From Apache Incubator

转自 http://www.infoq.com/cn/news/2014/03/Spark-Graduate-Apache-Incubator?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global


酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部