美团推荐算法实践:机器学习重排序模型成亮点

2015-2-2 22:12| 发布者: joejoe0332| 查看: 7592| 评论: 0|原作者: 美团技术博客|来自: CSDN

摘要: 美团作为国内发展较快的O2O网站，有着大量的用户和丰富的用户行为，这些为推荐系统的应用和优化提供了很好的条件。本文由美团技术团队成员撰写，介绍其推荐系统的构建和优化过程中的一些做法。 ...

下表表示了Event A和Event B之间的相互关系，其中：

k11 ：Event A和Event B共现的次数
k12 ：Event B发生，Event A未发生的次数
k21 ：Event A发生，Event B未发生的次数
k22 ：Event A和Event B都不发生的次数

则logLikelihoodRatio=2 * (matrixEntropy - rowEntropy - columnEntropy)

其中

rowEntropy = entropy(k11, k12) + entropy(k21, k22)
columnEntropy = entropy(k11, k21) + entropy(k12, k22)
matrixEntropy = entropy(k11, k12, k21, k22)

(entropy为几个元素组成的系统的香农熵)

2. location-based

　　对于移动设备而言，与PC端最大的区别之一是移动设备的位置是经常发生变化的。不同的地理位置反映了不同的用户场景，在具体的业务中可以充分利用用户所处的地理位置。在推荐的候选集触发中，我们也会根据用户的实时地理位置、工作地、居住地等地理位置触发相应的策略。

根据用户的历史消费、历史浏览等，挖掘出某一粒度的区域（比如商圈）内的区域消费热单和区域购买热单

区域消费热单

区域购买热单

当新的线上用户请求到达时，根据用户的几个地理位置对相应地理位置的区域消费热单和区域购买热单进行加权，最终得到一个推荐列表。
此外，还可以根据用户出现的地理位置，采用协同过滤的方式计算用户的相似度。

3. query-based

　　搜索是一种强用户意图，比较明确的反应了用户的意愿，但是在很多情况下，因为各种各样的原因，没有形成最终的转换。尽管如此，我们认为，这种情景还是代表了一定的用户意愿，可以加以利用。具体做法如下：

对用户过去一段时间的搜索无转换行为进行挖掘，计算每一个用户对不同query的权重。

计算每个query下不同deal的权重。

当用户再次请求时，根据用户对不同query的权重及query下不同deal的权重进行加权，取出权重最大的TopN进行推荐。

4. graph-based

　　对于协同过滤而言，user之间或者deal之间的图距离是两跳，对于更远距离的关系则不能考虑在内。而图算法可以打破这一限制，将user与deal的关系视作一个二部图，相互间的关系可以在图上传播。Simrank[2]是一种衡量对等实体相似度的图算法。它的基本思想是，如果两个实体与另外的相似实体有相关关系，那它们也是相似的，即相似性是可以传播的。

5. 实时用户行为

　　目前我们的业务会产生包括搜索、筛选、收藏、浏览、下单等丰富的用户行为，这些是我们进行效果优化的重要基础。我们当然希望每一个用户行为流都能到达转化的环节，但是事实上远非这样。

　　当用户产生了下单行为上游的某些行为时，会有相当一部分因为各种原因使行为流没有形成转化。但是，用户的这些上游行为对我们而言是非常重要的先验知识。很多情况下，用户当时没有转化并不代表用户对当前的item不感兴趣。当用户再次到达我们的推荐展位时，我们根据用户之前产生的先验行为理解并识别用户的真正意图，将符合用户意图的相关deal再次展现给用户，引导用户沿着行为流向下游行进，最终达到下单这个终极目标。

　　目前引入的实时用户行为包括：实时浏览、实时收藏。

6. 替补策略

　　虽然我们有一系列基于用户历史行为的候选集触发算法，但对于部分新用户或者历史行为不太丰富的用户，上述算法触发的候选集太小，因此需要使用一些替补策略进行填充。