协同过滤算法之商品相似性计算_YOFEE

http://blog.sina.com.cn/u/1080925104

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

协同过滤算法之商品相似性计算

(2011-05-23 19:50:21)

标签：

杂谈

分类：数据库

矩阵已经填满，然后，我们就可以进入协同过滤算法核心部分，计算商品相似性并搜寻目标商品的最近邻居商品集合。

（*注）这里是用的sql实现的，C语言方法以后再加。

输入：用户－商品评分矩阵R(m,n) 最近邻用户数k, top-N 推荐集项的项目数N.

输出：目标用户u的top-N推荐项集I

第一步：建立用户－商品评分矩阵R(m,n).

表tmp_yofee_vote(PID,MID,Score) 可以反映之间的对应关系。

第二步：从R(m,n)中分别提取目标商品i与商品j的评分项集，设为I_i,I_j从而得到商品I,j的评分项并集I_ij=I_iUI_j .

第三步：用刚才的公式对这评分项并集中未评分项进行填补。

第四步（关键点）：搜寻最近邻居项目，对于目标项目i，算法需要搜寻i的最近邻居商品集合I={i1,i2,…ik},i I且i与I中商品ik之间的相似性sim(i,ik) (1<=k<=K) 由大到小排列。k值可直接给定或通过相似性阈值来确定，也可将这两种方法结合，即在相似性大于阈值的商品中择取相似性最大的前k个商品。

第五步：循环执行1~4步，得到i与其他商品的相似性，从而择取相似性最大的前k个项目作为i的最近邻居项目集合I={i1,i2,…,ik} sim(i,ik)由大到小排列。

第六步：通过计算目标用户u对任意项目i的评分，然后选择得到top-N推荐集。设项目i的最近邻居项目集合为I={i1,i2,…ik} 且i与I中任意项目ik(1<=k<=K)之间的相似性 sim(i,ik)由大到小排列，则目标用户u对项目i的评分P(u,i)可以基于用户u对I 中各商品的评分进行加权处理得到：

http://s3/middle/406d9bb0ga3f01a2bb782&690

第七步：输出u的top-N推荐项集I,结束。

http://s14/middle/406d9bb0ga3f01a467b4d&690

--创建相似度表:

CREATE TABLE tmp_yofee_sim

(pid_i NUMBER(6,0),pid_j NUMBER(6,0),score NUMBER(6,4));

余弦相似性：

代码大致思路：

通过两个游标进行循环取商品i和商品j进行对比。

--24000sec

DECLARE

SUM_AB NUMBER;

I2 NUMBER;

J2 NUMBER;

MAX_SCORE NUMBER(6, 4);

CNT_6 NUMBER;

CURSOR CUR1 IS

SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;

CURSOR CUR2 IS

SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;

CUR_PID NUMBER;

CUR_PID2 NUMBER;

BEGIN

OPEN CUR1;

FETCH CUR1

INTO CUR_PID;

WHILE CUR1%FOUND LOOP

OPEN CUR2;

FETCH CUR2

INTO CUR_PID2;

--排除将两个完全一样的数据进行对比，第二个游标开始循环。

WHILE CUR2%FOUND AND CUR_PID <> CUR_PID2 LOOP

--一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。

SELECT SUM(A.SCORE * B.SCORE)

INTO SUM_AB

FROM TMP_YOFEE_VOTE A, TMP_YOFEE_VOTE B

WHERE A.MID = B.MID

AND A.PID = CUR_PID

AND B.PID = CUR_PID2;

--将商品i的所有评分算平方和再求平方根

SELECT SQRT(SUM(SCORE * SCORE))

INTO I2

FROM TMP_YOFEE_VOTE

WHERE PID = CUR_PID;

--将商品j的所有评分算平方和再求平方根

SELECT SQRT(SUM(SCORE * SCORE))

INTO J2

FROM TMP_YOFEE_VOTE

WHERE PID = CUR_PID2;

--下面这一段的意思是找出与这个商品最相似的六个商品，如果没到六个就直接插入，如果已经有六个了如果比这个最小的大就插入新值。

SELECT DECODE(MIN(SCORE), NULL, 0, MIN(SCORE))

INTO MIN_SCORE

FROM TMP_YOFEE_SIM

WHERE PID_I = CUR_PID;

SELECT COUNT(*) INTO CNT_6 FROM TMP_YOFEE_SIM WHERE PID_I = CUR_PID;

IF CNT_6 < 6 THEN

INSERT INTO TMP_YOFEE_SIM

SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;

ELSE

IF CNT_6 >= 6 AND SUM_AB / (I2 * J2) >= MIN_SCORE THEN

INSERT INTO TMP_YOFEE_SIM

SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;

END IF;

--打完收功

FETCH CUR2

INTO CUR_PID2;

END LOOP;

CLOSE CUR2;

COMMIT;

FETCH CUR1

INTO CUR_PID;

END LOOP;

CLOSE CUR1;

COMMIT;

END;

--最后查出每个商品按分值排序取最相近的六个并列出来。

SELECT PID_I, PID_J, SCORE, MM

FROM (SELECT PID_I,

PID_J,

SCORE,

RANK() OVER(PARTITION BY PID_I ORDER BY SCORE DESC) MM

FROM TMP_YOFEE_SIM)

WHERE MM <= 6

ORDER BY PID_I, MM

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：协同过滤算法之组合加权评分

后一篇：pro*c连接oracle并查询数据的一个例子

新浪BLOG意见反馈留言板　欢迎批评指正