开源的典范 Hadoop 依赖于社区服务器,任何人都可以自由的下载、安装并运行。由于它是一个开源项目,所以没有软件成本,这使得它成为一种非常吸引人的解决方案。Hadoop 带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。 Hadoop 称得上开源创新领域的杰出典范。思科的James Urquhart曾经这样说过:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功”。尽管里程碑不只这么一 个,但能够以这样的规模将成功果实迅速扩展的例子还真不多见。 虽然大量的行业用户开始学习Hadoop的技术架构,但在真实的生产环境 中,依然显得相当谨慎,很大一部分也是因为开源。Google虽然公开了MapReduce论文,但底层的GFS、BigTable等技术都不是开源的, 因为这是互联网的核心竞争力。很多企业的确想用这个技术,但是技术门槛比较高,前期投入非常之大。一旦进入维护和开发阶段,Hadoop的真实成本就会凸 显出来。 群体的智慧 Hadoop作为海量数据分析的最佳解决方案,已经受到众多IT厂商的关注,并由此而锤炼出风格迥异的Hadoop发行版以及支持Hadoop的产品。 例如,IBM在 Hadoop系统领域的代表产品InfoSphere BigInsights,它是基于开源Apache Hadoop框架实现,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的数据分析、机器学习技术以及文本数据分析挖掘;IBM在 流计算领域的代表产品是 InfoSphere Streams,是目前业界独有的流数据处理技术。Streams能够在对诸如气象信息、通讯信息、金融交 易数据的管理中动态捕捉信息、进行实时分析,能够对静态数据的处理提供有效补充;在数据仓库方面是InfoSphere Warehouse和etezza。Netezza克服了传统数据仓库在面临大数据挑战时的瓶颈,可以将大量数据整合到统一的平台上,计算能力高达TB 级。 结语 Hadoop目前已经取得了非常骄人的业绩。随着互联网的发展,新的业务模式正在不断涌现,Hadoop的应用也正逐渐从互联网向电信、银行、医疗、教育等领域拓展。在不久的将来,Hadoop必然会在更多的领域中继续扮演“幕后英雄”,并带来更多的惊喜。 |