http://blog.sina.com.cn/verystrong[订阅]
字体大小: 正文
协同过滤 -- 基于用户的协同过滤系统(2008-09-01 17:20:51)
协同过滤基于用户的协同过滤系统

    协同过滤(Collaborative Filtering)技术,是基于一组兴趣相同的用户进行推荐。协同过滤基于这样的假设:为用户找到他真正感兴趣的内容的好方法是,首先找他与他兴趣相似的用户,然后将这些用户感兴趣的内容推荐给此用户。

    协同过滤技术可以分为三类:基于用户(User-based)的协同过滤;基于项目(Item-based)的协同过滤;基于模型(Model-based)的协同过滤。

    基于用户的协同过滤系统通常需要三个步骤。

    步骤一,收集可以代表用户兴趣的信息。
传统的系统一般使用打分的方式.

    显性评分.最著名的例如 MovieLens豆瓣上经常出现在右侧的“我来评价”也是这种方法。隐式评分。不需要用户直接输入评价数据,而是根据用户的行为特征由系统代替用户完成评价。一种研究得比较多的方法是 Web Mining 。电子商务网站的用户购买记录是非常有用的数据。

    步骤二,最近邻搜索。
    协同过滤的出发点是与你兴趣相同的一组用户,术语叫做“最近邻”。最近邻搜索的核心是计算两个用户的相似度。例如用户A和用户B,首先需要获取用户A和用户B所有的评分项,然后选择一个合适的相似度计算方法,基于评分项数据,计算得到用户A和用户B的相似度数值。目前使用比较多的相似度算法包括,皮尔森相关系数(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)以及调整余弦相似性(Adjusted Consine Similarity)。

    步骤三,生成推荐结果。
    有了最近邻集合,就可以对目标用户的兴趣进行预测,生成推荐结果。通常根据推荐目的的不同,可以进行多种形式的推荐。最常见的推荐结果有两种,Top-N 推荐和关联推荐。

    1)Top-N 推荐,这里的 Top-N 和一般网站(比如 digg)上见到的“最热门”列表是不同的。热门列表是基于全部数据集产生的,它对每个人都是一样的;Top-N 推荐是针对单个用户产生的,它对每个人是不一样的:通过对你的最近邻用户进行统计,选择出现频率最高且在你的评分项目中不存在的项目作为推荐结果。豆瓣上的“排行”栏目,应该是传统的“热门”列表,不是 Top-N 推荐。
    2)关联推荐,也称为基于关联规则的推荐。与传统关联规则针对全部数据进行挖掘不同的是,此方法仅对最近邻用户的购买记录进行关联规则挖掘。如果你曾经购买过关联规则左边的商品,而没有购买过关联规则右边的商品,那么就把右边的这个商品推荐给你。它最突出的优点就是,可以帮助你发现你感兴趣的而以前却从来没有注意过的商品。在 Amazon 介绍书的详细信息的页面上,可以看到这种推荐的一个实际应用。

    基于用户的协同推荐算法随着用户数量的增多,计算量成线性加大,其性能会越来越差。而对于 Web 应用系统,响应速度绝是影响用户体验的最重要因素之一。这一点极大的限制了基于用户的协同过滤技术在实际系统中的使用。

加载中,请稍候...
  • 评论加载中,请稍候...

验证码:请点击后输入验证码  收听验证码

发评论

以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

相关博文
读取中...
推荐博文
读取中...