DataFu在Apache进入孵化状态

2014-2-13 10:34| 发布者: joejoe0332| 查看: 2255| 评论: 0|原作者: 梅雪松|来自: infoQ

摘要: LinkedIn的DataFu项目是一个用于Hadoop的类库集合，于1月第1周在Apache软件基金会（ASF）正式进入孵化状态。该项目创建于2012年1月，早期的定位是作为Pig项目的用户定义函数集（UDF ）。相对于更加通用的UDF集如Pigg ...

　　LinkedIn的DataFu项目是一个用于Hadoop的类库集合，于1月第1周在Apache软件基金会（ASF）正式进入孵化状态。

　　该项目创建于2012年1月，早期的定位是作为Pig项目的用户定义函数集（UDF ）。相对于更加通用的UDF集如Piggybank，Datafu更侧重于数据挖掘和统计类的函数，例如分位数计算和取样方法。2013年10月，一个名为DataFu Hourglass的新库加入到此项目。Hourglass是用于MapReduce的类库，为作业提供了处理增量数据的能力。其处理方式一般是在HDFS中保存上一个作业的状态，并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

　　DataFu在Apache进入孵化状态，是其前进过程中的一大步。任何项目都要经过严格的审查，完成投票程序才能进入孵化器。2012年初创建的DataFu，2014年初才成功进入孵化器。通常，一个Apache项目完成孵化需要一定的时间，一旦项目的相关服务（wiki、邮件列表、教程等等）建设完成，DataFu将结束孵化，成为ASF的顶级项目或者Hadoop的子项目。

　　随着最近进入Apache孵化器，DataFu有了很多近期的发展计划。其中最关键的功能之一是为Hive和Crunch提供同一UDF，以使其得到更大范围的应用。其中包括将项目的构建系统移植到Gradle，这些工作DataFu社区目前正在做。构建系统从Ant改为Gradle的好处是能够巩固社区，使其以更简单的流程添加新功能。

　　DataFu社区还比较小，但保持着稳定的增长。Russell Jurney最近的贡献使Open NLP项目成了DataFu 1.3.0的一部分。邮件列表中讨论的焦点是增加更多UDF，就像项目贡献者Matthew Hayes和Sam Shah所描述的，让DataFu成为“大数据的WD-40”。

查看英文原文：DataFu Enters Incubation Status at Apache

转自 http://www.infoq.com/cn/news/2014/02/datafu-asf?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：Plan-9效应:为什么东西不坏就不要去修它下一篇：开源智能家居控制装置需建立体“防火墙”

帐号		自动登录	找回密码
密码			注册

DataFu在Apache进入孵化状态

最新评论