尹绪森:打开圈子拥抱变化谈Spark玩家的自我修养

2014-3-26 11:09| 发布者: joejoe0332| 查看: 4224| 评论: 0|原作者: 刘亚琼|来自: CSDN

摘要: 在Spark技术峰会召开前夕，记者和本次Spark峰会的演讲嘉宾尹绪森做了一次简单的沟通，他就Spark技术优势、Spark技术发展做了简要的回答……

- 请谈谈你在这次大会上即将分享的话题。

机器学习方法在这十年中取得了巨大的成就，大有百家争鸣之势。然而，机器学习领域一直受到多种问题的困扰。首先是模型准确性和计算有效性的取舍；其次数据可用性也严重制约着机器学习算法的进展；最后机器学习的可用性也制约着机器学习的发展。从性能上来看，机器学习算法的加速方法由四个境界。总结起来，分别是scale-up ，scale-out，算法本身打破串行限制，以及较好的编程模型。IBM计算机体系结构师阿姆达尔在1967 年提出阿姆达尔定律，表明了并行系统存在的性能提升总是受到其中串行性最明显一环的控制。这就要求如果一个系统真正要实现较好的加速并行，就要在各个层面上充分进行并行化。机器学习算法并行存在着四个层次的加速可能，因此也有四个层次的问题需要考虑。
近年来有越来越多的人进入“系统与机器学习联姻”的领域，这方面的呼声也越来越高。CMU大学的Eric Xing老师无疑是个中旗手，学术界与工业界也有大量的研究人员在这方面取得了不俗的进展，据我所知像计算所，微软等都有“大牛”在研究。未来的研究点是机器学习算法指导的大数据系统构建，或者大数据系统支撑的机器学习算法。机器学习和大数据系统并非“非此即彼”的二元选项，随着2014年机器学习盛会ICML 和系统界一流的workshop APSys 一起在北京召开，以及机器学习从业者和系统架构师不断的交叉融合可见趋势。通过算法指导系统搭建可以获得动态的系统结构，反之会使得机器学习算法性能更高。

- 哪些听众最应该了解这个话题，这个话题可以帮助听众解决哪些问题？

这次分享的话题将会包含下面几个问题，根据实际情况会有所侧重。首先是MLlib介绍，可能有些人还不太清楚，所以稍微提及一下MLlib现有的基本算法，整体模式等。其次是机器学习深入理解。我不会喋喋不休的向大家灌输机器学习中常见的一堆堆公式，那会把大家吓跑。实际上我自己有时候也看不下去。相反，我会以一种自己的理解去讲一讲机器学习方面的注意事项、关键点、着重强调与系统结合的部分。之后是希望能带大家熟悉Spark运行时的一些情况。不了解Spark是怎么运行的，就永远不可能写出好的Spark程序，就跟优秀的程序员都有很深的系统方面，编译器方面，以及语言方面的知识一样，可以说是“Spark玩家的自我修养”，并会提及一些实例来做更好的探究。最后我会说一说Spark机器学习实战及调优。时间有限，不可能事无巨细。
这些话题应该比较适合那些从事机器学习建模，并有期望转入更加扎实的系统研究的人，也很有利于系统界的兄弟们多了解一下机器学习的背景知识。

12 / 2 页在本页阅读全文

酷毙

雷人

鲜花

鸡蛋

漂亮

收藏分享邀请

上一篇：显示服务器重要性的争论:对用户来说不重要了?下一篇：Banana PI开源硬件项目启动

快毕业了，没工作经验，
找份工作好难啊？
赶紧去人才芯片公司磨练吧!!

帐号		自动登录	找回密码
密码			注册

尹绪森:打开圈子拥抱变化谈Spark玩家的自我修养

最新评论