善解人意的“人意”好不好解,是不是跟语种有关系呢?在这张图上,我们看到很多中文难以处理的例子。很多评论的第一反应是中文博大精深,中文不一样,英语很好的方法到中文就不行。有的人就说我们比别人更懂中文。即使是知识图谱也出了个“中文知识图谱”,好象这个知识图谱到底是知识层面的还是语言层面的这件事情,都有了商量了。这说明了什么?说明我们还停留在我们对母语的认识的初级阶段。我们对母语的认识,和对人类共同的语言机制的认识,还没有统一起来,中间还有巨大的鸿沟。 一般来说,我们对母语的认识分成三个阶段:第一阶段,碰见这些例子,都认为这是习惯用法,根本没有规律的,我们也不关心这个,我们的指标很好看。这就完了吗?可是实际的问题并没有解决。第二个阶段,规律是有的,但我们的母语就是特殊,我们只能使用特殊的东西把这些问题解决了。是有这么一个见招拆招的阶段,但是作用很有限。真正的能够进到最后一个阶段的人很少很少。这种人既熟悉了母语的特殊性,同时又知道这个世界上关于语言共性普适的进展,而且还能把二者融会贯通结合起来。这种人太少了,而且这种人跟我们的交流太少了,所以我们不知道他们的存在,更不知道去挖掘他们的宝藏。 经常有一种说法,说基于规则的系统是傻子,基于统计的系统是疯子。基于规则的系统,在规则不能覆盖的地方表现极其糟糕。基于统计的系统,因为很多模型现在只能做到浅层,深层的不知道怎么做,所以实现也只能做到浅层,有局限,又不知道自己的局限在哪,就出现了明明不知道的,没有自知之明了,大家一看就知道是笑话,但是他敢拿出来说。还有两个组合,一个是基于规则处理浅层语言模型的,比如做英语的词法的,词根的变换,还原等,是可以做一点但有限,油水不多了。基于统计处理深层语言模型,是有的,但由于深层模型的本身是有一个资源建设这样一个积累在里面的。如果没有资源建设,深层是无从谈起的。你做统计,又要有语料的积累。语料和资源建设的双重积累是瓶颈,能够用打通瓶颈往前走的人不多,但我认为这是正确的路。 在自然语言处理领域,我感觉到一个不好的现象:厚此薄彼。我们看到,理工农医各类专业的领域专家是很受尊敬的,唯独语言学家不受尊重。不仅很多和自然语言相关的大型的项目里面语言学家的参与度很不够,就连谷歌的诺维格和语言学家乔姆斯基之间的争论也是很不友好的,语言学里面有很多宝贝,但是外面的人不认识,认识不到。那为什么自然语言处理还能这么火呢,我认为这里面一个原因是他们还在吃我所说的“规模红利”。当我的语料规模非常大、应用面非常广的时候,即使是浅层,也能做出很好的效果来,为一些处理到浅层就够了的应用提供了很好的支持,所以会有这样的现象。但是另一方面,深层的玩法并没有大的突破,要想抄底,别人不做,你来做,总要有一些瓷器活,但是这个瓷器活目前还不行。 对目前这个主流的基于统计的浅层自然语言处理,有两点我认为是需要高度肯定的: 第一是使用正确的手段解决了语言边界这样一个典型的非良定义的人工智能的问题。所谓非良定义,就是说人知道这个边界在哪,但是没有数学公式把这个边界写出来,而且这个边界是上下文相关的,在不同的环境下是浮动的。对这样的东西,使用统计学习的方式来获取领域知识,这是正面的,我认为这个方向是对的。 第二,是把符号的根基,也就是语言中不可再分的符号代表了什么这件事情,映射到,或者说植根于网络空间之上。说几个简单的例子:关于你在哪的问题,跟你手机里的地图联系起来了;关于你跟哪个人什么关系的问题,跟你的通讯录联系起来了,跟你的社交网络的帐号联系起来了;天气的问题,甚至是车次的问题,跟相应的这样一些服务联系起来了。这个是一个最重要的、值得高度肯定的一点。 |