http://blog.sina.com.cn/pzb[订阅]
个人资料
公告
 天使还是魔鬼?
  据说当驴子面对两堆一模一样的干草的时候因为无法选择而饿死了.
  那么当驴面对两堆不一样的干草无法抉择时会怎样呢?
  它把两堆都吃了,然后撑死了.
  做人,就不能做这样的笨驴.可惜,要避免做这样一只驴子该多么困难啊!
  等到恍然的时候,希望还没有太晚.
分类
    内容读取中…
评论
读取中...
朋友圈
大树底下

大树底下

大鸟的BLOG

高中到现在的好兄弟

佳姑娘

似乎是个爱醉的女孩子

手指尖的舞蹈

文字很可爱

乖乖

和手指尖一样的重庆女孩

消停了吧

大学的好哥们

年轻无极限

呵呵,RT

刘松鹤[KDE]

很有见地的MagicLinux开发者

凯凯

乡熊一名

深色冰蓝

传说中的小滢子

猛男

如题啊如题

老虎

就是老虎了~~~

老翟

知心好友

圈子及其他
XFocus

安全焦点

EvilOctal

邪恶八进制

访客
读取中...
好友
读取中...
博客男女
为了那一份热爱!
93.0%男性倾向,7.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao|博客男女
博文

    学习了一段时间的SEO,也在几个站点上做了一些尝试,发现了搜索引擎收录的一些特点,记录在这里,供大家参考:
    Baidu:很重视网站的更新频率和稳定性,做到这两点的话百度会比较规律地爬站,而且排名提高也比较快。如果更新断断续续或者出现一段时间的中断的话,很影响百度排名。
    Google:突出的特点是非常亲睐静态页面,最近在做伪静态的一个站改好后,收录量增加了接近一倍。
    Yahoo:收录量在所有搜索引擎里面是最大的,可惜更新很慢。我也很纳闷,Yahoo每天都来站上爬400来次,为什么首页的更新日期都是一周前的呢?
    Live搜索:无语,几乎从来都不来爬。不知道什么级别的网站才能如微软的法眼。
    Sogou:不太清楚。
    Youdao:收录量挺大,不过更新也不快。最奇怪的是,查

微软雅虎重启谈判(2009-04-11 23:32)

    美国消息人士10日说,美国微软公司和雅虎公司继去年收购计划告吹后,近日重启谈判,讨论搜索引擎和广告投放合作事宜,以对抗搜索引擎巨头谷歌公司。眼下谈判处于初级阶段,双方已提出多种合作方案。两家公司均拒绝就此事发表评论。
    消息人士说,虽然双方重新回到谈判桌前,但这并不意味着谈判一定会取得成果。虽然鲍尔默先前多次公开表示,微软有意收购雅虎搜索引擎广告业务或整个搜索业务,但一名与雅虎关系密切的消息人士说,雅虎仍不愿放弃对它来说至关重要的搜索业务和手中掌握的相关关键数据。
    
    评论:微软雅

GAE开始支持Java了(2009-04-10 23:36)

    4月7日,Google宣布其Google App Engine支持Java语言。此次升级支持原有的所有GAE API,且与Java Servlet API, JDO and JPA, javax.cache, and javax.mail兼容。与此同时,Google还提供了GAE的Eclipse插件

 

注:我毕设要做一个垂直搜索引擎中的用户推荐项目,这些是我摘录的一些资料和相关分析。

    进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

    这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
   

    余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

    皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

   

推荐系统(2009-04-01 17:18)

目标:设计一个推荐系统;该系统用于bijiala垂直搜索引擎中;能够针对用户给出合适的推荐;推荐内容包括用户可能感兴趣的产品,某款产品用户可能感兴趣的价格区间、品牌等元数据,关联的关键字;能够根据用户是否接受推荐进行再学习。

原则:尽量高的准确率;尽量好的效率,良好的扩展性。

基元数据:页面、关键字、元数据。

思路:基于内容和协同过滤的结合方法。

    1.如何表示一个用户及其兴趣?
    2.如何定义一次用户操作?
    3.如何表示一次用户会话?
    4.如何定义一个推荐对象?
    5.如何进行权重分配?
    6.如何保证扩展性?
    7.如何避免共用ip问题?
    8.如何解决冷开始问题?

做法: 

    1.用户的表示:ip,会话,cookies(可能); 
    2.用户操作:页面停留;点击链接;点击推荐的链接;在推荐链接的页面停留;
    3.用户会话:点击流,访问

垂直搜索用户推荐(2009-03-25 16:53)

两个维度的分析:用户自身的纵向对比,用户之间的横向对比

两者之间的权重动态调整(根据用户反馈)

多个维度的推荐:
产品类别推荐(如该类别最热产品)
关键字推荐
元数据推荐(如价格区间、供应商等)

过程:用户建模-->项目匹配-->推荐输出
用户建模:数据收集、模型表示、模型学习、模型更新

方法:基于内容,基于知识,基于协同过滤,基于Web使用挖掘,混合类型
基于内容:

 

设计目标是什么?建立怎么样的系统?有哪些考评该系统的依据?关键功能点是什么?

最终要推荐什么:产品(电子产品、机票、酒店)、关键字、下一步要做什么?是进行有状态的推荐还是无状态的推荐?

如何将用户与这些东西关联:向量?关键字如何识别并与某类产品关联?

如何进行权重分配?用户之间相似度的权重,用户直接关键字搜索的权重,用户点击的权重,用户采纳建议后如何计算权重并并入现有体系?

长期跟踪的推荐还是短期的推荐?能够从web日志中提取出cookies信息?

 

定义用户的元操作:关键字搜索、点击链接访问了概要信息

可分析:

1.页面停留时间
2.链接流
3.访问时间

可得出:

1.产品之间的相关性
2.用户感兴趣产品
3.用户感兴趣区域
4.针对用户高频搜索区域进行索引效率优化
5.统计网站更新规律,对变动较快的网站,提供更高的抓取频率
6.页面关联
7.兴趣邻居

2009-3-7ttc收录情况(2009-03-07 17:23)

2009-3-7ttc收录情况

过两天对比看看效果

毕设定题资料(2009-03-05 23:42)

1)  规避深度优先在很多情况下会导致爬虫的陷入问题;

2)