Twitter开源了其MapReduce流处理框架Summingbird。Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。它基于Apache 2许可发布。 现在的软件栈需要手工集成MapReduce (Pig/Scalding)和基于流(Storm)的代码,为了处理5亿的Tweet并能持续成长,Twitter必须寻找一个替代品。关于创建Summingbird的主要动机,Twitter的工程师提到,在于他们意识到,由于以下原因,在Storm上运行一个完全实时的系统非常困难:
正是这一洞见推动了Summingbird这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:
Summingbird也是第一批可以公开获得的Lambda架构兼容系统中的一个。类似的项目包括Yahoo的Storm-YARN 和一家西班牙创业公司即将发布的Lambdoop。 Lambdoop是一个Java框架,用于以与Lambda架构一致的方式开发大数据应用。Lambda架构的特色是有一个不可修改、只能追加数据的主数 据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智 能城市、可穿戴设备和制造业)之上的社交媒体平台(比如Twitter、LinkedIn等)到金融行业(欺诈检测和推荐)等。 Summingbird的主要设计者Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物Dennis Ritchie的侄子)和Ashutosh Singhal 进一步透露了该框架的路线图:
查看英文原文:Twitter Open-Sources its MapReduce Streaming Framework Summingbird 译文地址:http://www.infoq.com/cn/news/2014/01/twitter-summingbird?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global |