云计算、移动化、社交网络、大数据被公认为四大趋势,大数据则以挖掘数据中所蕴含的价值被大量用户所关注,随着大数据生态圈的形成和稳步发展,Hadoop已经成为大数据重要的平台。近日,在2014 SAS中国区用户大会上,SAS公司高层表示SAS希望利用多年在数据分析方面的经验让Hadoop集群平台更加强大。 Hadoop 2.0版本在去年推出之后,最重要的变化就是将被人所诟病的Mapreduce框架升级为Apache YARN框架,大大扩展了Hadoop中应用软件种类和应用程度。SAS公司作为商业分析软件领域的重要厂商,在2014年年初也推出了适用于Hadoop架构的SAS内存分析技术(SAS IN-Memory Statistics For Hadoop),SAS公司表示该技术可以让多用户同时交互地管理、挖掘和分析数据,建立和对比模型,以及对Hadoop框架内的海量数据进行评分。 图一:大数据生态系统中Hadoop占据重要作用,基于Hadoop平台上新的分析模式让用户有更多选择,SAS近来也加入到对Hadoop平台的支持。 SAS公司大数据研究与发展全球副总裁Paul Kent表示:“多亏Hadoop这个开源系统和开源框架使得过去只有超级计算机才能运行的运算可以由多台计算机同时处理。Hadoop现在正在慢慢成长为一个分析平台,能够让其他种类的软件也融入和整合进来,SAS公司现在也可以参与到这个平台之中,把它变得更加容易使用。SAS公司拥有40年的专业数据分析经验,能够让整个Hadoop框架和集群变得更好。” 图二:SAS公司大数据研究与发展全球副总裁Paul Kent。 目前,在Hadoop平台上的基于内存计算框架和分析模式有多重,有现在非常火爆的Spark/Shark、GreenPlum GenFire等等,Hadoop走向平台化的趋势就使得平台上层的分析框架和模式更加多元化,也让用户的选择更加灵活。“对于SAS而言,最大的优势就是集群环境下的运算和算法,这是SAS的核心竞争力所在,SAS是第一家把大量且复杂的精密运算应用到Hadoop集群的公司,用户现在通过软件就可以非常轻易的做过去只有数据科学家才能做的事情,比如建立很好的模型或对未来进行预测等。”Paul Kent表示。 据悉,SAS In-Memory Statistics For Hadoop内存计算技术支持的统计和机器学习剑魔技术包括:聚类、递归、广义线性模型、方差分析、决策树、随机决策森林、文本分析和推荐系统。SAS可视化分析(SAS Visual Analytics)采用的内存分析技术也被应用到SAS In-Memory Statistics For Hadoop中。Paul Kent表示:“技术是非常重要的引擎,能够处理更大集群的处理,更快地得出结果。同时,SAS也非常关注用户界面友好,让用户使用方面。” |