OpenStack大数据项目Sahara概述

2014-4-17 11:46| 发布者: joejoe0332| 查看: 9413| 评论: 0|原作者: 章宇|来自: InfoQ

摘要: 　　2013年4月，OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS（BigData-as-a-Service）项目——Sahara（原名Savanna），正式开始了在OpenStack上构建大数据服务能力的努力。　　近日，开源技术 ...

　　2013年4月，OpenStack社区知名厂商Mirantis正式宣布了基于OpenStack的开源BDaaS（BigData-as-a-Service）项目——Sahara（原名Savanna），正式开始了在OpenStack上构建大数据服务能力的努力。

　　近日，开源技术专家章宇（@一棹凌烟）在其博客上分享了对Sahara项目的研究心得。整个介绍系列分为7篇文章，除前言部分外，其余六篇分别是：

Sahara概述：介绍项目的目的、概况、发展等基本情况
Sahara使用方式：介绍具体如何使用Sahara进行大数据业务操作
Sahara设计实现：介绍Sahara的架构设计与实现
Sahara与AWS EMR和Serengeti的对比：将Sahara与目前最知名的公有云大数据服务和Hadoop虚拟化项目进行简单对比分析
对Sahara的若干思考
小结与展望

　　在《Sahara概述》中，章宇介绍了Sahara的定位、功能的演进、社区支持力度与整体发展的趋势。

　　Sahara最初的基本定位是基于OpenStack提供简单的Hadoop集群创建方式，不过随着项目不断演进，Sahara所涵盖的范畴也有所扩大。章宇从两个层面介绍了Sahara项目的发展方向：

从服务层次的维度看，Sahara已经开始从利用OpenStack的IaaS能力，提供简单的大数据工具集群创建和管理服务，扩展到提供分析即服务（Analytic-as-a-Service）层面的大数据业务应用能力。Sahara v0.3中引入的EDP（Elastic Data Processing）就是一个明确的体现。
从承载的业务类型维度看，Sahara也很有可能会迅速突破单一的Hadoop工具范畴，拓展支持其他新兴的大数据工具。例如，关于提供Spark支持的BP已经被提交至社区，目前正在等待review。

　　Sahara项目的发展较快，其项目PTL Sergey Lukjanov已经宣布Sahara将于OpenStack Juno版本中正式成为integrated项目，目前代码已经提交，并在等待review，其版本演进可以参见其wiki页面介绍。目前Sahara已经被集成在RDO中，因此可以被更为简单方便的安装部署。

　　《Sahara使用方式》简单介绍了Sahara的使用模式、基本概念与操作流程。

　　Sahara有两种使用模式：

基本的大数据集群应用模式（基本模式）
通过EDP机制引入的分析即服务模式（EDP模式）

　　简单来说，基本模式要求用户自己从底层搭建Hadoop虚拟机、建立集群，技术门槛较高；而EDP模式有点类似于AWS EMR服务，对底层的Hadoop集群操作和Hadoop业务操作进行了封装，暴露给用户的只有非常简单的接口，使用简便。

　　章宇介绍了Sahara当中的节点（node）、节点组(node group)、节点组模板（node group template）、集群（cluster）、集群模板（cluster template）、任务（job）等关键概念，并简单列出了在基本模式下用Sahara建立Hadoop集群的操作流程。整个介绍比较概括，step by step的操作文档可参考Sahara官方的QuickStart。

12 / 2 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：十一款Linux上的视频编辑软件横评下一篇：创建合规开源项目须知的五步骤

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

OpenStack大数据项目Sahara概述

最新评论