加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

360搜索抓取完全封闭网页揭秘

(2012-09-02 21:04:42)
标签:

爬虫

浏览器

网页

外链

360搜索

it

分类: it

第一步,百度工程师制作一个保存在服务器个人文件夹下的简单网页,没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的,不可能被搜索引擎抓取到。

 

第二步,百度工程师用360浏览器打开了这个网页。并通过各种搜索引擎不间断试验,显示网页均未被抓取。

 

但约2小时之后,却发生了令人大跌眼镜的事情。百度工程师试着在360搜索中输入以上关键词,结果这个网页赫然出现在搜索结果第一行,并可以直接点击进入浏览网页内容。再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容,却仍然无法返回相应网页。

 

为什么一个完全封闭的网页竟然能被360搜索引擎抓取到,并呈现在搜索结果之中?百度工程师解释道,核心原因就在于他曾用360浏览器打开过这个网页。

 

在360浏览器的隐私策略中,注明了360安全浏览器会在用户的计算机上记录有关浏览历史记录的实用信息。这些信息包括:浏览历史记录、用户访问过的大部分网页的的屏幕截图、Cookie或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、关闭窗口时的未关闭标签列表、使用内置安全下载器的下载记录、浏览器插件中保存的内容等。

 

360搜索的爬虫正是根据360浏览器抓取的数据信息,再去相应的网页爬取内容快照。由此,360搜索就能成功抓取一个完全封闭的网页。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有