设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客

OpenStack大数据项目Sahara概述

2014-4-17 11:46| 发布者: joejoe0332| 查看: 9230| 评论: 0|原作者: 章宇|来自: InfoQ

摘要:   2013年4月,OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS(BigData-as-a-Service)项目——Sahara(原名Savanna),正式开始了在OpenStack上构建大数据服务能力的努力。  近日,开源技术 ...

  2013年4月,OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS(BigData-as-a-Service)项目——Sahara(原名Savanna),正式开始了在OpenStack上构建大数据服务能力的努力。




  近日,开源技术专家章宇(@一棹凌烟)在其博客上分享了对Sahara项目的研究心得。整个介绍系列分为7篇文章,除前言部分外,其余六篇分别是:



  在《Sahara概述》中,章宇介绍了Sahara的定位、功能的演进、社区支持力度与整体发展的趋势。


  Sahara最初的基本定位是基于OpenStack提供简单的Hadoop集群创建方式,不过随着项目不断演进,Sahara所涵盖的范畴也有所扩大。章宇从两个层面介绍了Sahara项目的发展方向:

从服务层次的维度看,Sahara已经开始从利用OpenStack的IaaS能力,提供简单的大数据工具集群创建和管理服务,扩展到提供分析即服务(Analytic-as-a-Service)层面的大数据业务应用能力。Sahara v0.3中引入的EDP(Elastic Data Processing)就是一个明确的体现。

从承载的业务类型维度看,Sahara也很有可能会迅速突破单一的Hadoop工具范畴,拓展支持其他新兴的大数据工具。例如,关于提供Spark支持的BP已经被提交至社区,目前正在等待review。


  Sahara项目的发展较快,其项目PTL Sergey Lukjanov已经宣布Sahara将于OpenStack Juno版本中正式成为integrated项目,目前代码已经提交,并在等待review,其版本演进可以参见其wiki页面介绍。目前Sahara已经被集成在RDO中,因此可以被更为简单方便的安装部署。


  《Sahara使用方式》简单介绍了Sahara的使用模式、基本概念与操作流程。


  Sahara有两种使用模式:

  • 基本的大数据集群应用模式(基本模式)
  • 通过EDP机制引入的分析即服务模式(EDP模式)


  简单来说,基本模式要求用户自己从底层搭建Hadoop虚拟机、建立集群,技术门槛较高;而EDP模式有点类似于AWS EMR服务,对底层的Hadoop集群操作和Hadoop业务操作进行了封装,暴露给用户的只有非常简单的接口,使用简便。


  章宇介绍了Sahara当中的节点(node)、节点组(node group)、节点组模板(node group template)、集群(cluster)、集群模板(cluster template)、任务(job)等关键概念,并简单列出了在基本模式下用Sahara建立Hadoop集群的操作流程。整个介绍比较概括,step by step的操作文档可参考Sahara官方的QuickStart



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部