俞晨杰(Chenjie Yu) 俞晨杰是LinkedIn Hadoop高级工程师,是 LinkedIn Hadoop 组的主要成员之一,是开源作业流调度软件 Azkaban 的主要创作者之一。在加入 LinkedIn 之前,他在 Yahoo 数据平台组,开发 Hadoop 上的大规模数据处理流水线。其擅长的Azkaban是Hadoop批处理调度器(详细介绍:http://data.linkedin.com/opensource/azkaban),用来构建和运行Hadoop作业或其他脱机过程。他会跟大家来分享Hadoop在LinkedIn的应用。 冼茂源 搜狗高级工程师冼茂源是Hadoop Hama项目的committer,他将介绍Hadoop子项目Hama(http://hama.apache.org/)在搜狗的使用。Apache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。简单地说,Hama是在HDFS上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。 戴金权 戴金权(Jason Dai)是英特尔软件和服务事业部技术总监、首席工程师,负责领导英特尔大数据技术的研发工作。他是一名Spark Committer。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。 黄晟盛 黄晟盛也来自英特尔软件和服务事业部,也是一名Spark Committer。他将和Jason Dai一起在此次峰会上《Mining web-scale social graph with GraphX》,GraphX是Spark平台上的一个全新的弹性分布式图像处理框架,可以大大提高面向社交网络、精准广告领域里的机器学习和数据挖掘效率。 李浩源(Haoyuan Li) 李浩源是UC Berkeley AMP实验室的博士,是Spark的核心开发人员。李浩源专注于计算机系统以及大数据的研究。师从Dr. Scott Shenker和Dr. Ion Stoica两位教授。在校期间,创建了Tachyon系统以及SparkStreaming系统,是Apache Spark committer,Shark committer,伯克利大数据处理平台(BDAS)主要研发者之一。曾在Google和Conviva从事大数据处理挖掘的研发工作,所研发的PFP大数据挖掘算法被Apache Mahout所采用。李浩源拥有北京大学学士学位以及康奈尔(Cornell)大学硕士学位。李浩源演讲的主题是《Tachyon -?比HDFS快100倍的分布式内存缓存》,Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。 辛湜(Reynold Xin ) Reynold Xin (辛湜) 是Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发,并在Spark之上编写了Shark和GraphX两个开源框架。今年年中,他和AMPLab同僚共同创建了Databricks公司。他分享的议题大会主办方还没有公开,据称是个神秘议题。 |