2015年3月25日,在美国加州湾区华为美国研发中心举行的SparkMeetup,吸引了数百名Spark社区参与者,同时提供了Youtube在线会场向全球直播。在Spark技术交流中,来自Databricks的Yin Huai分享了“Data Source API in Spark SQL”的主题。Spark SQL Data Source API是一个方便的功能,使用户可以方便地连接到存储在不同的格式和系统的数据,搭载了Data Source API和SQL,用户可以用最少的安装和配置步骤来操作数据。Yin Huai首先介绍了Data Source API和建立在它之上的统一保存和加载接口,能够显著简化各种源数据的保存和加载过程。接着,Yin Huai使用了一个例子来说明如何可以通过Spark SQL Data Source AP连接自己的数据源。 华为则重点介绍了其社区项目“Spark SQL on HBase”,该项目由华为研发团队于2014年底完成,并于近期开源,旨在提供加速在线海量数据分析的查询引擎。“华为对Spark项目和社区的贡献有力说明了其对该项目的长期努力和坚定信心,作为UC Berkeley AMPLab的早期企业赞助商,多年来,华为以各种方式支持Spark项目” ,Andy Konwinski(Spark committer和Databricks联合创始人)谈到, “我们希望华为能为社区带来更多的用户和使用案例,推动Spark在行业垂直市场的更好发展”。 华为已经看到把Spark引入垂直行业的机会,尤其是在电信行业。“为了释放电信数据资产的全部潜力,大数据平台需要很容易的以插件方式融入整个IT和网络系统,同时提供统一的分析入口允许IT工程师,业务分析师,数据科学家以及网络运维人员继续运用他们已有技能,Spark为其提供了坚实基础和框架。”Bing Xiao,作为华为大数据美研带头人,和大家共享华为的愿景。“为了实现这一使命,在特定领域的专业知识深度积累和将大数据系统和行业融合同等重要。而跨行业和供应商的生态系统则是构建此类行业解决方案的关键”。 3月29日下午国内也同步上演了一场精彩的Spark聚会,与会人员超过150人,吸引了来自阿里巴巴、网易、海康、浙江大学、浙江移动、社区Contributor各公司及社区的参与者,同时也邀请到了部分Spark专家如七牛信息技术总监陈超(国内Spark发起人之一)、《Spark源码剖析》书作者许鹏等。来自淘宝的时金魁做了“图解Spark Core“的精彩讲解,许鹏则为众人解惑” Spark部署中的关键问题解决之道“,来自华为的李昆和刘诗凯分享了Spark技术实践与Spark项目经验。国内Spark发起人陈超表示,“华为应该是中国用Spark最深的企业,在高性能数据处理方面比互联网BAT公司还强。” |