搜索引擎蜘蛛擎爬行和抓取的方方面面
(2012-04-04 03:22:17)
标签:
seo搜索引擎蜘蛛baiduit |
分类: 网站运营 |
2.爬取频率(搜索引擎多久对网站发起一次新的爬行)
3.爬取深度(一个蜘蛛从开始位置可以点击到多深)
4.爬取饱和度(唯一页面被获取的数量)
5.爬取优先(哪些页面最常作为蜘蛛的入口)
6.爬取冗余度(网站一般被多少蜘蛛同时爬取)
7.爬取mapping(蜘蛛爬取路径还原)
网站不止被搜索引擎和spider爬取,不同的工具会以不同的理由爬取你的网站,他们都几乎不会遵守robots规定。
爬虫本身分析和依队列工作的能力(如入库)非常有限,蜘蛛本身有检查页面中提取的数据的能力,以提高蜘蛛抓取效率同时不影响网站的运行,例如通过链接检查能够忽略很多最近已经爬过的一个充满链接的页面或相似的不同图片的页面。
设计大型网站时要尽可能地提高爬取效率,内链可能将帮助或者阻碍这一过程。例如,我曾极力建议每个网页上至少三个内部链接,但是,如果你建立了10 万个页面,你正在创造至少30万内部链接。每个链接将至少有1-2个饱和深度,饱和深度是蜘蛛从被爬取过的页面到中止放弃爬取造成的距离。
一些技术文献表面,导航链接和其他内部链接不是一样重要的,因为导航链接做的好可以渗透整个网站。比较链接结构,一定数量页面上的链接将形成一张巨大的导航网。大型网站往往不得不使用多个样式多个内容的导航,因为包含10万个链接的导航是不能给人用的。
xml文件解决了搜索引擎和大型网站的一些问题,可以创造一个涵盖整个网站(每高达5万地址)的地图文件,或者使用rss地址。
动态增长的网站又与静态大型内容网站有不同的挑战,如果你只是发布旧数据的归档那不会造成网站结构的大幅变动。如果允许用户在一个随机的基础上添加 内容(注:例如很多论坛程序个人主页那一大套功能),或如果隔两个月就增加新内容频道或者网站功能,网站结构将远远超出你的概念去发展。
一个电子商务网站发布10万件库存并且在一个既定的频度和连续的基础上更新内容可以维持一个相对静态的结构,论坛、博客、文章站或新闻发布站则是以 树的结构从开始慢慢会不断延伸新的枝叶(特意或者不经意地为了业务)到不同领域。越浅的设计结构将使得一个大型网站的内容被搜索引擎更难找到,分层,分层 次的结构将使得人和机器都有可能找到内容延伸的路径。(这里也许是一个启发,以前的设计思路是完全颠倒的)
做搜索引擎业务的的网站(公司)会怎么想?我不知道,但是如果他们研究和开发高效的爬行模板,他们不能不注意到一些大型网站如何拥有更高效的树状结 构。换个方面说对于访客,会很快在不相干内容的点击上疲惫,然后转向站内搜或者网站目录。(这样设计合理高效的树状结构也是必要的)
大型网站有几个方法可以协助爬行,PS:(这里crawl指的是网站爬取方面的状况,crawling指的是蜘蛛的 爬行)但这些方法不利于提高爬取效率,例如:
1.本地目录可以提供健壮(有分类)的结构和优先爬取,但是很难提供深的覆盖面积。(2008年的国外网站directories 结构设计)
2.html地图提供分类稀少的一种结构,没有优先级,并且几乎没有深覆盖面。
3.本地搜索工具也许能也许不能被搜索引擎索引,可能会提供低质量的搜索结果,或者由不可控关键词导出的搜索结果。
4.自定义链接展示页面可以帮助新发布的内容,提供小区域的重点内容。(优先级最高)
5.站外链接会提供专门内容的部分链接。
6.本地交叉内链提供专门内容的部分链接。(以上二者适合用来调整)
你只处理被抓取和被索引的页面是不够的,很多机会是在那些存在“二级索引”(没被发现的索引页面)的大量内容中。google所谓的补充材料(Supplemental Results Index) 对于你的长尾能见度是显著减少的,因为google不能完全地索引那些”补充材料”。尽管google似乎传递补充索引中的锚文本权重,也或者是限制传递 的。(作者对补充索引的描述,意会是补充索引是一些为生僻quary准备的候补页面,质量达不到常规曝光的水平,我认为这些页面代表之一是网站上质量不高 的搜索页面,只有相关性很高的但又生僻的词被查询才有出镜的机会,又查到可以使用site:www.网站.com *** -view 命令来查看你的补充索引内容。再简单一点,我理解的就是那些索引了但是质量不高的页面,google的索引机制就这德行)
但毫无疑问,google通过补充索引页面去发现,跟随,索引页面是没有问题的,补充索引有自己的蜘蛛(matt cutts说的)并且能够不借助xml地图就建立起数据库(google蜘蛛能力)。但是大型网站如果内容都是补充索引是几乎没有什么曝光率的。(低质量的、特别对待的蜘蛛及特殊对待的索引库)。
另一方面,大型网站也没有天生就能让google把它的大部分内容放入主索引中的因素,google寻找PageRank,因此一个典型的拥有很多外部链接传递PageRank的大型网站会有更多内容出现在猪索引中,相比那些外链稀缺的大型网站。
通过增加大型网站的链接我们可以增加网站的长尾能见度和爬取效率,但是站内导航必须通过额外的内链布置来帮助强调那些页面是站内最重要的。通过这些 额外的链接,你可以创建链接仓库——那些经常抓取和索引的网页,从为蜘蛛爬行的优先次序做出规划。链接仓库帮助你发布新内容;把老内容带回搜索引擎的视 野,并给网站的链接结构灵活性。
最重要的是,他们是你管理大型网站抓取最能发挥的一块阵地。