设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 业界资讯 开源资讯 查看内容

MongoDB CEO谈NoSQL的大数据量处理能力

2010-5-6 15:15| 发布者: joejoe0332| 查看: 5424| 评论: 1

摘要:   为MongoDB提供技术支持的10gen公司CEO凯文-赖安Dwight Merriman说:“我们公司成立于3月29日,我认为我们选择的不是一个缝隙市场,相反,我认为我们会慢慢改变企业用户市场。现在我们可以看到,MongoDB.org网站 ...
  为MongoDB提供技术支持的10gen公司CEO凯文-赖安Dwight Merriman说:“我们公司成立于3月29日,我认为我们选择的不是一个缝隙市场,相反,我认为我们会慢慢改变企业用户市场。现在我们可以看到,MongoDB.org网站每月的下载量达到了3万次,而几个月前,下载量还为零”



10gen公司CEO Dwight Merriman

  MongoDB的名字源自一个形容词humongous(巨大无比的),在向上扩展和快速处理大数据量方面,它会损失一些精度,在旧金山举行的MondoDB大会上,Merriman说:“你不适宜用它来处理复杂的金融事务,如证券交易,数据的一致性可能无法得到保证”。

  NoSQL数据库都被贴上不同用途的标签,如MongoDB和CouchDB都是面向文档的数据库,但这并不意味着它们可以象JSON(JavaScript Object Notation,JavaScript对象标记)那样以结构化数据形式存储文本文档。

  JSON被认为是XML的代替品,它是一个轻量级的,基于文本交换数据的标准,和XML一样具有人类易读的特性。简单的JSON数据结构叫做对象,可能包括多种数据类型,如整型(int),字符串(string),数组(array),日期(date),对象(object)和字节数组(bytearray)。

  面向文档的数据库与关系数据库有着显著的区别,面向文档的数据库用一个有组织的文件来存储数据,而不是用行来存储数据,在MongoDB中,一组文档被看作是一个集合,在关系数据库中,许多行的集合被看作是一张表。

  但同时它们的操作又是类似的,关系数据库使用select,insert,update和delete操作表中的数据,面向文档的数据库使用query,insert,update和remove做意义相同的操作。

  MongoDB中对象的最大尺寸被限制为4MB,但对象的数量不受限制,MongoDB可以通过集群加快操作的执行速度,当数据库变得越来越大时,可以向集群增加服务器解决性能问题。

  Wordnik工程副总裁Tony Tam说他的公司有5百万个文档,以前保存在MySQL数据库中,大约有1.5TB,一个月前迁移到MongoDB上了,Wordnik专门收集所有单词的定义和信息,因此数据量是非常大的,迁移到MongoDB后,Tony Tam说他感到更放心。

  Tam说使用MySQL数据库时,Wordnik项目一直都象是在颠簸的路上前行,数据表的冻结时间有时甚至超过了10秒,这是任何人都不能容忍的。每天会有大约200个新单词出现,我们要负责收集,并要向数据库增加1500个例子显示它们的用法,我们希望写入数据库的时间只需要1秒。Tam说:“我们不关心一致性,前后两个用户的查询结果不一定非得保持一致,我们本来就是时刻在做着更新,这一点我们无法保证”。

  Wordnik系统就象是一个庞大的在线词典,有很多人同时在线查询,但同时我们也在做更新,使用MongoDB后,我们可以保持高速添加数据,不用担心数据库会出现堵塞。Tam在MondoDB大会上曾做过一个题为“Wordnik:从MySQL到MongoDB”的演讲,他说他们公司只花了一天时间就从MySQL迁移到MongoDB上了。

  延伸阅读



MongoDB Logo

  Mongo是一个高性能,开源,无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发,提供了以下功能:

  ◆面向集合的存储:适合存储对象及JSON形式的数据。

  ◆动态查询:Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。

  ◆完整的索引支持:包括文档内嵌对象及数组。Mongo的查询优化器会分析查询表达式,并生成一个高效的查询计划。

  ◆查询监视:Mongo包含一个监视工具用于分析数据库操作的性能。

  ◆复制及自动故障转移:Mongo数据库支持服务器之间的数据复制,支持主-从模式及服务器之间的相互复制。复制的主要目标是提供冗余及自动故障转移。

  ◆高效的传统存储方式:支持二进制数据及大型对象(如照片或图片)。

  ◆自动分片以支持云级别的伸缩性(处于早期alpha阶段):自动分片功能支持水平的数据库集群,可动态添加额外的机器。

  MongoDB的主要目标是在键/值存储方式(提供了高性能和高度伸缩性)以及传统的RDBMS系统(丰富的功能)架起一座桥梁,集两者的优势于一身。根据官方网站的描述,Mongo适合用于以下场景:

  ◆网站数据:Mongo非常适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。

  ◆缓存:由于性能很高,Mongo也适合作为信息基础设施的缓存层。在系统重启之后,由Mongo搭建的持久化缓存层可以避免下层的数据源过载。

  ◆大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵,在此之前,很多时候程序员往往会选择传统的文件进行存储。

  ◆高伸缩性的场景:Mongo非常适合由数十或数百台服务器组成的数据库。Mongo的路线图中已经包含对MapReduce引擎的内置支持。

  ◆用于对象及JSON数据的存储:Mongo的BSON数据格式非常适合文档化格式的存储及查询。

  自然,MongoDB的使用也会有一些限制,例如它不适合:

  ◆高度事务性的系统:例如银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。

  ◆传统的商业智能应用:针对特定问题的BI数据库会对产生高度优化的查询方式。对于此类应用,数据仓库可能是更合适的选择。

  ◆需要SQL的问题

  MongoDB支持OSX、Linux及Windows等操作系统,并提供了Python,PHP,Ruby,Java及C++语言的驱动程序,社区中也提供了对Erlang及.NET等平台的驱动程序。

酷毙

雷人

鲜花

鸡蛋

漂亮

相关阅读

  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部