- 请谈谈你在这次大会上即将分享的话题。 机器学习方法在这十年中取得了巨大的成就,大有百家争鸣之势。然而,机器学习领域一直受到多种问题的困扰。首先是模型准确性和计算有效性的取舍; 其次数据可用性也严重制约着机器学习算法的进展;最后机器学习的可用性也制约着机器学习的发展。从性能上来看,机器学习算法的加速方法由四个境界。总结起来,分别是scale-up ,scale-out,算法本身打破串行限制,以及较好的编程模型。IBM计算机体系结构师阿姆达尔在1967 年提出阿姆达尔定律,表明了并行系统存在的性能提升总是受到其中串行性最明显一环的控制。这就要求如果一个系统真正要实现较好的加速并行,就要在各个层面上充分进行并行化。机器学习算法并行存在着四个层次的加速可能,因此也有四个层次的问题需要考虑。 - 哪些听众最应该了解这个话题,这个话题可以帮助听众解决哪些问题? 这次分享的话题将会包含下面几个问题,根据实际情况会有所侧重。首先是MLlib介绍,可能有些人还不太清楚,所以稍微提及一下MLlib现有的基本算法,整体模式等。其次是机器学习深入理解。我不会喋喋不休的向大家灌输机器学习中常见的一堆堆公式,那会把大家吓跑。实际上我自己有时候也看不下去。相反,我会以一种自己的理解去讲一讲机器学习方面的注意事项、关键点、着重强调与系统结合的部分。之后是希望能带大家熟悉Spark运行时的一些情况。不了解Spark是怎么运行的,就永远不可能写出好的Spark程序,就跟优秀的程序员都有很深的系统方面,编译器方面,以及语言方面的知识一样,可以说是“Spark玩家的自我修养”,并会提及一些实例来做更好的探究。最后我会说一说Spark机器学习实战及调优。时间有限, 不可能事无巨细。 |