互联网推荐系统漫谈

推荐系统这个东西其实在我们的生活中无处不在，比如我早上买包子的时候，老板就经常问我要不要来杯豆浆，这就是一种简单的推荐。随着互联网的发展，把线下的这种模式搬到线上成了大势所趋，它大大扩展了推荐系统的应用：亚马逊的商品推荐，Facebook的好友推荐，Digg的文章推荐，豆瓣的豆瓣猜，Last.fm和豆瓣FM的音乐推荐，Gmail里的广告......在如今互联网信息过载的情况下，信息消费者想方便地找到自己感兴趣的内容，信息生产者则想将自己的内容推送到最合适的目标用户那儿。而推荐系统正是要充当这两者的中介，一箭双雕解决这两个难题。

推荐系统的分类

推荐系统是建立在大量有效数据之上的，背后的算法思想有很多种，要大体分类的话可以从处理的数据入手。

1.利用用户行为数据

互联网上的用户行为千千万万，从简单的网页浏览到复杂的评价，下单......这其中蕴含了大量的用户反馈信息，通过对这些行为的分析，我们便能推知用户的兴趣喜好。而这其中最基础的就是「协同过滤算法」。

「协同过滤算法」也分两种，基于用户（UserCF）和基于物品（ItemCF）。所谓基于用户，就是跟据用户对物品的行为，找出兴趣爱好相似的一些用户，将其中一个用户喜欢的东西推荐给另一个用户。举个例子，老张喜欢看的书有A，B，C，D；老王喜欢看的书有A，B，C，E。通过这些数据我们可以判断老张和老王的口味略相似，于是给老张推荐E这本书，同时给老王推荐D这本书。对应的，基于物品就是先找出相似的物品。怎么找呢？也是看用户的喜好，如果同时喜欢两个物品的人比较多的话，就可以认为这两个物品相似。最后就只要给用户推荐和他原有喜好类似的物品就成。举例来说，我们发现喜欢看《从一到无穷大》的人大都喜欢看《什么是数学》，那如果你刚津津有味地看完《从一到无穷大》，我们就可以立马给你推荐《什么是数学》。

至于什么时候用UserCF，什么时候用ItemCF，这都要视情况而定。一般来说，UserCF更接近于社会化推荐，适用于用户少，物品多，时效性较强的场合，比如Digg的文章推荐；而ItemCF则更接近个性化推荐，适用于用户多，物品少的场合，比如豆瓣的豆瓣猜、豆瓣FM，同时ItemCF还可以给出靠谱的推荐理由，例如豆瓣的「喜欢OO的人也喜欢XX」和亚马逊的「买了XX的人也买了OO」。

协同过滤算法也有不少缺点，最明显的一个就是热门物品的干扰。举个例子，协同过滤算法经常会导致两个不同领域的最热门物品之间具有较高的相似度，这样很可能会给喜欢《算法导论》的同学推荐《哈利波特》，显然，这不科学！要避免这种情况就得从物品的内容数据入手了，后文提到的内容过滤算法就是其中一种。

除了协同过滤算法，还有隐语义模型（LFM）应用得也比较多，它基于用户行为对物品进行自动聚类，从而将物品按照多个维度，多个粒度分门别类。然后根据用户喜欢的物品类别进行推荐。这种基于机器学习的方法在很多指标上优于协同过滤，但性能上不太给力，一般可以先通过其他算法得出推荐列表，再由LFM进行优化。

2.利用用户标签数据

我们知道很多网站在处理物品条目的时候会通过用户自己标注的标签来进行分类，比如网页书签Delicious，博客的标签云，豆瓣书影音的标签。这些标签本身就是用户对物品的一种聚类，以此作为推荐系统的依据还是很有效的。

关于标签的推荐，一种是根据用户打标签的行为为其推荐物品，还有一种是在用户给物品打标签的时候为其推荐合适的标签。

根据标签推荐物品的基本思想就是找到用户常用的一些标签，然后找到具有这些标签的热门物品，将其推荐给用户。这里要注意两个问题，一个是要保证新颖性和多样性，可以用TF-IDF方法来降低热门物品的权重；另一个则是需要清除某些同义重复标签和没有意义的标签。

在用户打标签时为其推荐标签也是相当重要的，一方面能方便用户输入标签，一方面能提高标签质量，减少冗余。典型的应用场景就是用豆瓣标记书影音。这里的思想就是将当前物品上最热门的标签和用户自己最常用的标签综合在一起推荐给用户。其实豆瓣就是这么做的，它在用户标记物品的时候，给用户推荐的标签就分为「我的标签」和「常用标签」两类，而在「我的标签」里也考虑了物品的因素。

基于标签的推荐有很多优点，一方面可以给用户提供比较准确的推荐理由；另一方面标签云的形式也提高了推荐的多样性，给了用户一定的自主选择。标签其实可以看做一种物品的内容数据，比如书的作者，出版社，类型；音乐的国别，风格，作者等等，基于这些信息的推荐可以弥补上述基于用户行为推荐的一些弱点。

3.利用上下文信息

此处所谓的上下文，是指用户所处的时间，地点，心情等。这些因素对于推荐也是至关重要的，比如听歌的心情，商品的季节性等等。

这里主要以时间为例说说，在很多新闻资讯类网站中，时效性是很重要的一点，你要推荐一篇一年前的新闻给用户，估计会被骂死。在这种推荐中就需要加入时间衰减因子，对于越久之前的物品，赋予越小的权重。同样的思想也可以用在基于用户行为的推荐中，这里有很多可以优化的地方。对于ItemCF来说，同一用户在间隔很短的时间内喜欢的不同物品可以给予更高的相似度，而在找相似物品时也可以着重考虑用户最近喜欢的物品；对于UserCF，如果两个用户同时喜欢了相同的物品，那么可以给予这两个用户更高的相似度，而在推荐物品时，也可着重推荐口味相近的用户最近喜欢的物品。我们可以给相似度和用户的行为赋予一定权重，时间间隔越久权重越低，经过这种改进的「协同过滤算法」往往能得到用户更满意的结果。

类似的，在LBS成为应用标配的今天，可以根据物品与用户的距离赋予相应的权重，再综合其他因素得到靠谱的地点推荐。

4.利用社交网络数据

如今以Facebook，Twitter为首的社交网络大行其道，而其中的海量数据也是一大宝库。实验证明，由于信任的作用，来自好友的推荐往往能获取更高的点击率，鉴于此，亚马逊就利用了Facebook的信息给用户推荐好友喜欢的商品。此种推荐类似于UserCF，只是寻找用户之间的关系时除了兴趣相似度以外还得考虑熟悉度（如共同好友个数），这样一来，你的闺蜜们和基友们喜欢的物品很可能就会被推荐给你。

在社交网络内部也有许多推荐算法的应用。其中最重要的当属好友推荐，可依据的数据有很多：人口统计学属性（例如人人的找同学），共同兴趣（如Twitter中转发的信息），好友关系（共同好友数量，N度人脉）。另外还有信息流（Timeline）推荐，这其中以Facebook的EdgeRank为代表，大致思想就是：如果一个会话（Feed）被你熟悉的好友最近产生过重要的行为，它在信息流的排序中就会有比较高的权重。另外，基于社交网络兴趣图谱和社会图谱的精准广告投放也是推荐系统的关键应用，它决定着社交网站的变现能力。