趣文:如何向外行解释机器学习和数据挖掘

2013-10-29 09:43| 发布者: joejoe0332| 查看: 10749| 评论: 0|原作者: 开源中国社区|来自: 开源中国社区

摘要: 　　有网友在 Quora 上提问：对于那些非计算机科学行业的人，你会如何向他们解释机器学习和数据挖掘？斯坦福大学的印度学生、机器学习爱好者Pararth Shah在2012年12月22日的回复，非常经典，得赞数有 3700+。下面内 ...

　　你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果，而且确定他一定会买到你满意的芒果。

　　但是一旦在你的芒果实验中有了新的发现，你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。

　　如果问题越来越复杂，则你要针对所有的芒果类型，手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位（如果有这样的学位的话）。

　　可谁有那么多时间去做这事儿呢。

　　有请机器学习算法

　　机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习，它会让你的程序变得更“聪明”。

　　你从市场上的芒果里随机的抽取一定的样品（训练数据），制作一张表格，上面记着每个芒果的物理属性，比如颜色，大小，形状，产地，卖家，等等。（这些称之为特征）。

　　还记录下这个芒果甜不甜，是否多汁，是否成熟（输出变量）。你将这些数据提供给一个机器学习算法（分类算法/回归算法），然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。

　　下次你再去市集，只要测测那些芒果的特性（测试数据），然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的，熟的，并且/还是多汁的。

　　该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则（例如，决策树），或者更多涉及到的东西，但是基本上你就不需要担心这个了。

　　瞧，你现在可以满怀自信的去买芒果了，根本不用考虑那些挑选芒果的细节。更重要的是，你可以让你的算法随着时间越变越好（增强学习），当它读进更多的训练数据，它就会更加准确，并且在做了错误的预测之后自我修正。但是最棒的地方在于，你可以用同样的算法去训练不同的模型，比如预测苹果质量的模型，桔子的，香蕉的，葡萄的，樱桃的，西瓜的，让所有你心爱的人开心：）

　　这，就是专属于你的机器学习，是不是很酷啊。

　　机器学习：让你的算法更聪明，所以你就可以偷懒喽

12 / 2 页在本页阅读全文