记者: 目前很多公司要用Yahoo发布的Hadoop版本,还是需要修改一些代码才能符合自己的需求,用的时候也才觉得更安全。Yahoo是怎么看待这个问题的? Todd Papaioannou:Yahoo能够理解每个公司自己的安全标准,每个公司在用Hadoop时候也应该遵照自己公司的安 全标准。Hadoop是一个开放性的平台,而Yahoo也投入了大量的人力物力去开发Hadoop上的安全功能。那么我们也相信随着Hadoop在企业中 的应用更为广泛的情况下,各个企业在Hadoop上所做的安全方面的贡献就能够逐渐汇聚到Hadoop上面去,使得Hadoop的整体安全性的到进一步的 提升。 记者:现在大的互联网公司都在自己做Hadoop,这些大的互联网企业也有能力去部署自己的Hadoop,比如说Yahoo和淘宝都有很强的能力去部署Hadoop平台,那么像其他小型企业是否有能力自己部署呢? Todd Papaioannou:我们希望随着Hadoop的不断发展,Hadoop能变成一个越来越强大的社区或者是一个社区生态 系统。这样的话也会有更多的社区参与进来,他们能提供Hadoop上面的一些Hadoop咨询服务。包括技术服务,提供工具或者平台。通过他们提供的服务 可以帮助那些非互联网企业来进行部署、使用Hadoop。 记者:现在Hadoop的扩展性越来越往高端扩展,以及大规模实施,我想知道Hadoop的扩展性最小节点到达一个什么层次呢?比如说最小规模达到一个什么程度? Todd Papaioannou:Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行。比如我的笔记本上就有跑Hadoop。 记者: Hadoop与传统的计算模式相比,有什么样的优势呢? Todd Papaioannou:传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的是使用关系型数据,传统的数据关系比较规范化,而对于那些非关系型数据Hadoop能提供更大的灵活性。 记者:Hadoop现在并不是很完美,也存在很多的问题,比如安全性问题,比如小文件处理以及性能优化方面的问题,Yahoop在未来会在哪些方面的改进? Todd Papaioannou:Hadoop经过几年的发展,现在已经是一个比较成熟的产品了,这一点Yahoo是相当骄傲的。Yahoo现在还是在继续努力改进中,我们比较关注的问题,包括你刚提到的小文件的处理和整体性能的优化,以及服务器的可扩展性,这些都是Yahoop今后重点关注的优化方向。 记者:现在中国关注Hadoop的人越来越多,究竟Hadoop适合什么样的企业和应用?因为目前我们所看到的大部分都是互联网企业或者是日志分析等应用,一些企业想参与到Hadoop中来,需要具备什么样的条件?比如技术、人才等方面。 Todd Papaioannou:什么样的企业可以使用Hadoop?显而言之,有数据需要处理的的企业都可以用Hadoop。 Hadoop尤其擅长处理那些非结构化的数据,比如说互联网的搜索日志 、图片、或者是各种各样的多媒体应用。这就是为什么互联网企业最早且最广泛的使用Hadoop。任何的企业,如果他有大量的数据需要分析处理,都可以使用 Hadoop。现在除了互联网行业之外,也有很多企业在用Hadoop,比如说银行、制药企业、包括一些机械制造企业都开始使用Hadoop。那么企业到 底需要多少的资金、人力资源的投入呢?我觉得企业可以从分享开始,你投入多少就会有多少分享产出。你完全可以从几台机器开始投资,而投资的多少往往取决于 你数据的大小,随着你数据的增长,你可以适时的增加投资,从而你也会得到越来越多的处理能力。 |