从Google备份互联网看“数据安全”

2014-2-14 09:30| 发布者: joejoe0332| 查看: 3685| 评论: 0|原作者: 毛梦琪|来自: CSDN

摘要: 　　作者Todd Hoff是High Scalability创始人，为我们解读Google数据保密和数据安全负责人Raymond Blum的演讲。数据安全的一个重要工作就是备份，备份的容量扩展、存储备份的媒介、备份的效率......通过对互联网中庞 ...

在周日的上午10：31他看到了一个网页，上面写：“Holly Crap打电话给xxx-xxxx”。关于中断要想了解更多，请看在这里。
Gmail的数据量达exabyte级别。这意味着大量的磁带。
100%恢复并不意味着可用性也是100%，数据恢复要过段时间才能正常使用。
一系列的bug和意外事件会产生在备份的过程中。即使是单元测试、系统测试和集成测试，对一些bug也是无能为力。
从磁带中还原意味着大量的工作。还原时间和规模相关。还原gigabyte级数据可以在几毫秒到几秒时间内完成。还原200,000个收件箱中的几个gig，每个都得花去不少时间。
把欧洲的几个同事叫醒，因为他们刚休息完、很清醒。这就是分布式劳动力的优势。
从许多磁带还原和检验数据。不需要花几个星期或几个月时间，只需要花几天的时间。这使他们很开心。在类似情况下的其他公司花了一个月时间才意识到他们找不回数据了。需要采取一些措施以确保这个处理下一次更快。
一个磁带驱动器需要2个小时来读。这些磁带分布在各地。否则在还原过程中，任何单一地点都不会有足够能力读取还原过程中涉及的所有磁带。
压缩和校验码实际上不需要读取200K磁带。
还原过程自那时以来已大为改善。

例如，不要只考虑GMail在纽约备份，因为如果该数据中心增长或收缩，备份需要适当调整规模。
把备份看成一个横跨世界的巨型系统。备份时它可能完全是在别的地方完成。
在磁带上的还原必须是在磁带所在的位置。但到它制作磁带时，数据可能在纽约而备份可能在俄勒冈州，因为在那里有容量。位置隔离是自动的，客户不知道自己的数据被备份在哪里。
容量可以被迁移。只要有全球的容量和网络支持，磁带被放在哪无关紧要。

处理问题时，有通用的解决方案再好不过了。在写MapReduce时可能从来没有想到它会被用于备份。但要是没有MapReduce，利用它进行备份的想法也是不会有的。
扩展的重要性不言而喻，软件、基础设施、硬件、流程都要可以扩展。
你不能说：我要去部署更多的磁带驱动器，就需要两倍的员工。你会雇这么多的人吗？你有两倍多的停车点吗？还有食堂房间？厕所？一切都要扩大规模。你会遇到一个瓶颈，然后寸步难行。

不要仅仅通过堆栈迁移数据。特别是暂停期间堆栈不同层中保留的数据。丢失的数据可以在其它地方找到。所以记住：时间、地点和软件。
想一下Gmail的中断示例。如果备份损坏，数据怎样才能不会丢失？这是演讲时，听众的一个问题，他不想透露太多。数据是持续备份的。假设我们有下午9点的数据，假设下午8点出现损坏，但还没有做出磁带。这时损坏被停止了，软件被回滚到上一个工作版本。在一些还原点，所有堆栈中的数据是还在那里。这些就是磁带上的东西。磁带会备份这些东西。在前端上有，在日志中有。所有数据都可以实现重建。但要在所有数据被转移到另一个堆栈中之后再对其进行操作。