记者:Yahoo有四千多个节点在部署Hadoop,但是具体的应用方面,我在网上看到英文资料比较多,国内网又也不太了解。您能简单介绍下Yahoo目前在Hadoop这块的应用和开发的情况。 Todd Papaioannou:Yahoo内部目前最大Hadoop单个集成是四千个,Yahoo内部有很多个集群,目前至少有十 六七个集群。集群大小各异,小的从几台机器到到几百台机器,最大的有四千台机器。总机器数大概在四万台左右。而不同的机器有不同的用处,有的是做实验用, 有的是在生产上使用,这取决于你的任务性质,我们会在不同的任务上运行你的任务。接下来,Yahoo一方面会在系统的可扩展性上继续投入,争取超过4千台 机器,建立更大的集群。另一面我们会关注于可管理性方面,提高Hadoop的可管理和运营方面。最后Yahoo会提高系统的利用率,优化系统可利用性。 记者:在国外除了Yahoo在使用Hadoop之外,像Facebook,Google,亚马逊是不是也围绕Hadoop这个平台在做一些事情? Todd Papaioannou:你刚提到的Facebook、Google、亚马逊确实都在使用Hadoop,也有做一些贡献。但是Hadoop最大的贡献者还是Yahoo,Yahoo对于Hadoop有超过70%的贡献。 记者:Yahoo投入了多少人力物力到Hadoop上,以及Hadoop在Yahoo公司的地位如何? Todd Papaioannou:Yahoo在过去超过5年的时间一直持续有大量的时间花在Hadoop业务上,有相当大的开发者投入到Hadoop中来,所以就Hadoop在公司的地位来讲,Yahoo认为Hadoop是Yahoo云计算平台最核心的部分,雅虎一直相信Hadoop在公司的核心价值。 记者:你刚也提到Yahoo对于Hadoop社区的贡献是70%,但是我也看过一些报道,说Google对外开放的云计算平台与自己内 部使用的平台完全是两回事,Yahoo对这事怎么评价?Yahoo对于这个Hadoop70%的贡献,是Yahoo全部研究的70%,还是yahoo对外 贡献一小部,对外界而言就达到70%了呢? Todd Papaioannou:70%是对整个Hadoop而言,Yahoo占70%,另外30%是其他公司贡献的,对于Hadoop的70%贡献是Yahoo全部的研发技术,用户可以在Yahoo官网上下载所有的生产包,这些与Yahoo自己内部生产使用的完全一样的。 记者: 像Linux开源有社区、基金会,相对来说有公益性的管理。而像Hadoop有什么标准化的机构来主导Hadoop的技术发展吗? Todd Papaioannou:在Hadoop上有一个开发社区让大家来讨论或者决定大家的兴趣点所在,而Yahoo在这里是一个核心地位。当然Yahoo也希望有更多的人参与到Hadoop开发社区里来。 记者:我想问一下,Yahoo在中国的Hadoop的策略是怎么样的。 Todd Papaioannou:Yahoo在中国目前有一个很大的研发基地,中国研发基地这里基本上有一半以上的人每天都会与 Hadoop打交道,所以Yahoo的很多产品基本上都离不开Hadoop。我们这里有相当大的一部分人都是Hadoop的专家。Yahoo在中国7也希 望帮助Hadoop社区,让更多的人和企业使用Hadoop。目前Yahoo中国研究基地也是Yahoo全球核心研发的一部分团队,当然在中国可能看到 Yahoo的产品可能会少点,但是实际上Yahoo在信息业、电信等产业上都有投入。现在Hadoop的有那么多的版本,针对不同的用户,需求又不一样, 那么如何收集大量的数据,设计一套最符合用户需求的Hadoop平台呢?这是Yahoo今天需要关注的地方。目前Yahoo也把Hadoop的安全功能当 做一个很重要的功能,因为现在有越来越多的用户要做Hadoop上处理信息,我们更关注到用户信息的安全性。所以未来我们需要把Hadoop提高到一个很 高的安全性上面。 |