对于开源技术社区,Committer的作用是非常重要的。Committer能够对某个特定开源软件的某一块源代码进行修改。根据百度百科的解释,Committer机制是指一批对系统和代码非常熟悉的技术专家(Committer),亲自完成核心模块和系统架构的开发,并主导系统非核心部分的设计与开发,且唯一拥有代码合入权限的质量保障机制。其目标是:专家负责,严控合入,保障质量,提升开发人员能力。 Committer的身份对于热衷于开源技术的软件工程师来说,是一种莫大的荣誉。对于相关的企业来说,拥有Committer数量的多少也在一定程度上反映了该公司的技术实力和水平。拿Hadoop为例,Hortonworks拥有22位Hadoop Committer,Yahoo!拥有10位,Cloudera拥有8位,具体参见:http://hadoop.apache.org/who.html#Hadoop+Committers 11月22-23日在北京举办的Hadoop中国技术峰会(http://www.chinahadoop.com)邀请到了多少位拥有Committer身份的技术大件的来分享呢?答案是9位。他们分别活跃在Hadoop、Hbase、Mesos、Thrift、Azkaban、Hama、Spark等领域。 下面让我们一起来了解一下他们的风采: Benjamin Hindman Ben是 Apache Mesos项目创始人,他早在伯克利读博士期间就开启了这一项目,随后他把Mesos引入了Twitter,目前Mesos运行在几千台机器上面。除了继续领导Apache Mesos之外,Ben也是Twitter公司里的一名技术领袖,是公司架构层面的项目评估成员之一。他在此次技术峰会上将分享的议题是:Mesos making it easy to build distributed systems in Twitter。Mesos最大的卖点是对Hadoop上作业资源的管理,从而使得在多种计算框架并存的集群环境中提供一种统一的资源管理平台。 Todd Lipcon Todd Lipcon是Hadoop、HBase和Thrift项目的PMC(Project Management Committee)成员和committer,也是Cloudera公司的明星级工程师。他将在技术峰会上分享《New features in Hadoop & Hbase, exciting features in Impala》。Cloudera Impala是基于Hadoop的实时查询开源项目,据称要比原来基于MapReduce的Hive SQL查询速度提升3~90倍。 Ted Yu Ted Yu在Hortonworks工作,是一名Apache HBase Committer,目前在Apache HBase项目组中只有33名成员。他将带来Hbase的最新进展。HBase是一个分布式的、面向列的开源数据库,就像Bigtable利用了Google文件系统所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache Hadoop的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 俞晨杰(Chenjie Yu) 俞晨杰是LinkedIn Hadoop高级工程师,是 LinkedIn Hadoop 组的主要成员之一,是开源作业流调度软件 Azkaban 的主要创作者之一。在加入 LinkedIn 之前,他在 Yahoo 数据平台组,开发 Hadoop 上的大规模数据处理流水线。其擅长的Azkaban是Hadoop批处理调度器(详细介绍:http://data.linkedin.com/opensource/azkaban),用来构建和运行Hadoop作业或其他脱机过程。他会跟大家来分享Hadoop在LinkedIn的应用。 冼茂源 搜狗高级工程师冼茂源是Hadoop Hama项目的committer,他将介绍Hadoop子项目Hama(http://hama.apache.org/)在搜狗的使用。Apache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。简单地说,Hama是在HDFS上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。 戴金权 戴金权(Jason Dai)是英特尔软件和服务事业部技术总监、首席工程师,负责领导英特尔大数据技术的研发工作。他是一名Spark Committer。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。 黄晟盛 黄晟盛也来自英特尔软件和服务事业部,也是一名Spark Committer。他将和Jason Dai一起在此次峰会上《Mining web-scale social graph with GraphX》,GraphX是Spark平台上的一个全新的弹性分布式图像处理框架,可以大大提高面向社交网络、精准广告领域里的机器学习和数据挖掘效率。 李浩源(Haoyuan Li) 李浩源是UC Berkeley AMP实验室的博士,是Spark的核心开发人员。李浩源专注于计算机系统以及大数据的研究。师从Dr. Scott Shenker和Dr. Ion Stoica两位教授。在校期间,创建了Tachyon系统以及SparkStreaming系统,是Apache Spark committer,Shark committer,伯克利大数据处理平台(BDAS)主要研发者之一。曾在Google和Conviva从事大数据处理挖掘的研发工作,所研发的PFP大数据挖掘算法被Apache Mahout所采用。李浩源拥有北京大学学士学位以及康奈尔(Cornell)大学硕士学位。李浩源演讲的主题是《Tachyon -?比HDFS快100倍的分布式内存缓存》,Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。 辛湜(Reynold Xin ) Reynold Xin (辛湜) 是Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发,并在Spark之上编写了Shark和GraphX两个开源框架。今年年中,他和AMPLab同僚共同创建了Databricks公司。他分享的议题大会主办方还没有公开,据称是个神秘议题。 |