关于Hadoop你需要知道的几件事情

2013-11-28 10:49| 发布者: joejoe0332| 查看: 4221| 评论: 0|原作者: 崔康|来自: infoQ

摘要: 　　在当今的技术领域，大数据是个热门的IT流行词语。为了减轻处理大量数据时的复杂度，Apache开发了Hadoop——一个可靠的、可扩展的分布式计算框架。Hadoop特别适合大数据处理任务，并且它可以利用其分布式的文件系 ...

　　易于控制的Hadoop系统，产品开发是一项重要的活动，系统维护也是同样重要的，它有助于决定产品的未来。在 Hadoop中，环境设置、维护和环境监测、以及处理和调整MapReduce任务都非常需要从Hadoop系统中受益。为此Hadoop提供了很大的灵活性来控制整个系统，Hadoop的可在三种不同的模式中进行配置：即独立模式、伪分布式模式和完全分布式模式。

在Ganglia框架的帮助下，整个系统可以被监测并且能对节点的健康状态进行跟踪。另外，参数配置功能提供了对MapReduce的任务控制。Hadoop系统有很好的灵活性可以轻松搞定整个系统的级别控制。

　　可扩展的持久性。有很多选择可以处理海量的结构化和非结构化的数据，但是储存海量数据的可扩展性仍然是数据世界中的主要问题之一。Hadoop系统打算用Accumulo来缓解这个问题。Accumulo是被谷歌的BigTable的设计所启发的，并且建立在Hadoop、Zookeeper 和Thrift的基础之上，同时它给Hadoop提供可扩展的、分布式的、且基于单元持久性的数据备份。Acumulo带来了一些BigTable设计之上的改进，以一种基于单元的访问控制和服务器端的编程机制来帮助在数据管理过程中修改不同点的键/值对。

　　Hadoop中的数据读取和写入发生在HDFS上。HDFS即Hadoop的分布式文件系统，并且是具有容错性的分布式文件系统。它在对进行文件流读取的大型文件进行了优化，而且和I/O吞吐量相比，更倾向于低延迟。有很多可以高效的从HDFS中读取和写入文件的方法，比如说API文件系统、MapReduce以及高级串行化库等。

　　转自 http://www.infoq.com/cn/news/2013/11/hadoop-facts

12 / 2 页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：让Linux无障碍使用的7款开源软件下一篇：如何辨别Android软件安全性

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

关于Hadoop你需要知道的几件事情

最新评论