易于控制的Hadoop系统,产品开发是一项重要的活动,系统维护也是同样重要的,它有助于决定产品的未来。在 Hadoop中,环境设置、维护和环境监测、以及处理和调整MapReduce任务都非常需要从Hadoop系统中受益。为此Hadoop提供了很大的灵 活性来控制整个系统,Hadoop的可在三种不同的模式中进行配置:即独立模式、伪分布式模式和完全分布式模式。
可扩展的持久性。有很多选择可以处理海量的结构化和非结构化的数据,但是储存海量数据的可扩展性仍然是数据世界中的主要问题之一。Hadoop系统打算用Accumulo来缓解这个问题。Accumulo是被谷歌的BigTable的设计所启发的,并且建立在Hadoop、Zookeeper 和Thrift的基础之上,同时它给Hadoop提供可扩展的、分布式的、且基于单元持久性的数据备份。Acumulo带来了一些BigTable设计之上的改进,以一种基于单元的访问控制和服务器端的编程机制来帮助在数据管理过程中修改不同点的键/值对。 Hadoop中的数据读取和写入发生在HDFS上。HDFS即Hadoop的分布式文件系统,并且是具有容错性
的分布式文件系统。它在对进行文件流读取的大型文件进行了优化,而且和I/O吞吐量相比,更倾向于低延迟。有很多可以高效的从HDFS中读取和写入文件的
方法,比如说API文件系统、MapReduce以及高级串行化库等。 转自 http://www.infoq.com/cn/news/2013/11/hadoop-facts |