支付宝开源化与自主开发颠覆传统BI模式

2010-9-3 09:04| 发布者: joejoe0332| 查看: 7864| 评论: 2|原作者: 李伟|来自: IT168信息化

摘要: 　　支付宝现有的是数据量是280TB到年底将会达到450TB，每年至少三到五倍的数据增长，这些数据如何来处理？成千上万的数据如果没有一个可靠、稳定、高效的系统架构和平台，那么后果可想而之。　　支付宝（中国）网络 ...

　　开源和自主开发解决BI难题

　　问：谈到BI的发展趋势，现在阶段国内外关于BI的服务商都进行大规模的收购整合，从您的角度来看，这些收购或者是整合对于用户来讲有什么影响或者收益？

　　蒋杰：我个人的建议来分析，从IBM收购Cognos，Sap收购Sysbase等等，这是一种非常大的现象，BI的工具大部分被大的厂商而垄断，对于我们用户而言，现在处于互联网行业，这些厂商的收购没有给我们带来太多的影响，因为我们现在都是基于一种开源化的产品，来做得数据仓库。现在除了数据库以及前端展现工具以外，其余都是采用自主开发的系统实现的，而没有用ETL等专业的工具去做，我们完全不是按厂商来推ETL理念。

　　记者：在开源和自主开发方面，您能不能给我们详解一下？目前来看好多的用开源软件会有许多的问题，比如它的安全性以及服务方面怎么来保证？第二、自主开发有哪些优势？

　　蒋杰：第一、开源方面。其实，我们在BI以前，用过一些其它产品，当我们遇到问题的时候比如里面具体的问题在哪里、我们要增加新的功能等。如果提这样一个需求，部分服务商首先需要把问题发给美国，然后在到中国，这样就完全不能快速解决我们的问题，可能对于我们的企业特殊的应用来讲不太合适。而我们用最简单的工具就可以把企业的应用问题解决，这就是我们最合适的问题办法，所以，我们会选择简单、高速、可扩展性比较好的的架构体系来去适应整个数据仓库过程。

　　第二、所谓的自主开发，我们也开发了关于许多关于BI自主开发的系统。比如数据的分发中心来解决数据的分发，装载等。我们自己定义一套SQL标准，以自己的SQL标准把一些不同数据库之间的异构的情况，还有语法不一样，并且把一些复杂的实现封装，实现我们快速开发的标准，这也是自主开发的一面。这些都证明了自主开发比较适合有一定规模的，数据量超过50TB的行业，无论是互联网，还是传统行业自主开发BI都是有一定优势的。

　　记者：开源和自主开发是BI的关键，那么在您看来，要想做好BI从架构的角度来看，我们应该如何搭建好架构呢？

　　蒋杰：目前支付宝的数据仓库每年是280TB，每年至少三到五倍的数据增长，预计今年年底会超过450TB。当我们构建一个系统的时候，不应该只看怎么去构建？构建系统的架构方法是统一的，但是去实施的标准不一样。比如当构建2TB的数据仓库的架构，和去20TB的数据仓库的架构2000TB的架构，它所要用到的技术是完全不一样的。2TB的架构用一个节点就可以解决。构建架构首先要根据企业应用到了什么程度、数据的来源、复杂程度等要综合这些因素，要把虚拟化摸清楚、应用有哪些、确立目标，在来寻找我们合适的架构。

　　当前，可能会去自己开发一些系统比如调度系统，支撑我们数据仓库的运行。建好架构以后，怎么来维护好快速的增长数据，这是比较关注的。作为一个架构师应该提前一年或者两年，预计企业的数据变化、增长的速度，来做好一些前期系统的更新，扩容。同时，前期需要进行大量的调研，做完这些调研以后进行论证，这些系统到底支撑多少时间、多少业务，这是需要我们进一步考虑的。

123 / 3 页下一页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

帐号		自动登录	找回密码
密码			注册

支付宝开源化与自主开发颠覆传统BI模式

相关阅读

最新评论