协同过滤算法之商品相似性计算

标签:
杂谈 |
分类: 数据库 |
矩阵已经填满,然后,我们就可以进入协同过滤算法核心部分,计算商品相似性并搜寻目标商品的最近邻居商品集合。
(*注)这里是用的sql实现的,C语言方法以后再加。
输入:用户-商品评分矩阵R(m,n) 最近邻用户数k, top-N 推荐集项的项目数N.
输出: 目标用户u的top-N推荐项集I
第一步:建立用户-商品评分矩阵R(m,n).
表tmp_yofee_vote(PID,MID,Score) 可以反映之间的对应关系。
第二步:从R(m,n)中分别提取目标商品i与商品j的评分项集,设为Ii,Ij从而得到商品I,j的评分项并集Iij=IiUIj .
第三步:用刚才的公式对这评分项并集中未评分项进行填补。
第四步(关键点):搜寻最近邻居项目,对于目标项目i,算法需要搜寻i的最近邻居商品集合I={i1,i2,…ik},i I且i与I中商品ik之间的相似性sim(i,ik) (1<=k<=K) 由大到小排列。k值可直接给定或通过相似性阈值来确定,也可将这两种方法结合,即在相似性大于阈值的商品中择取相似性最大的前k个商品。
第五步:循环执行1~4步,得到i与其他商品的相似性,从而择取相似性最大的前k个项目作为i的最近邻居项目集合I={i1,i2,…,ik} sim(i,ik)由大到小排列。
第六步: 通过计算目标用户u对任意项目i的评分,然后选择得到top-N推荐集。设项目i的最近邻居项目集合为I={i1,i2,…ik} 且i与I中任意项目ik(1<=k<=K)之间的相似性 sim(i,ik)由大到小排列,则目标用户u对项目i的评分P(u,i)可以基于用户u对I 中各商品的评分进行加权处理得到:
http://s3/middle/406d9bb0ga3f01a2bb782&690
第七步:输出u的top-N推荐项集I,结束。
http://s14/middle/406d9bb0ga3f01a467b4d&690
--创建相似度表:
CREATE TABLE tmp_yofee_sim
(pid_i NUMBER(6,0),pid_j NUMBER(6,0),score NUMBER(6,4));
余弦相似性:
代码大致思路:
通过两个游标进行循环取商品i和商品j进行对比。
--24000sec
DECLARE
BEGIN
--排除将两个完全一样的数据进行对比,第二个游标开始循环。
WHILE CUR2%FOUND AND CUR_PID <> CUR_PID2 LOOP
--一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。
END;
--最后查出每个商品按分值排序取最相近的六个并列出来。
SELECT PID_I, PID_J, SCORE, MM