标签:
搜索引擎危机解决之道 |
分类: 搜索引擎 |
前面那篇“搜索引擎遭遇危机?”http://blog.sina.com.cn/u/59191ea60100086l)里提到网页发行成本,有些人对网页发行成本没概念,我先解释一下:
网页发行成本:(一定时间内软件开销+硬件开销+版权内容成本+内容维护成本)/总PV
对于新闻网站等每个页面发行量大的网站来说,为应付每个发行所需要增加的软件开销和硬件开销很小,当所生产的每个网页平均PV上升时,每PV成本就会显著降低。
对于搜索引擎来说,虽然不需要支付版权内容成本,但是,由于每个网页生产出来以后发行量很小(3以下,甚至接近1),为每个发行而需要的硬件开销就比内容网站高很多,而且为了保证生产质量,软件开销和内容维护成本高。
这是新闻网站和搜索引擎不同的成本特性决定的。
那么,我们可以看到,搜索引擎成本的关键在于网页生产出来以后的失效周期太短,如果软件和硬件市场价格不降低,那么每个发行的成本不会随访问量增长而降低,甚至由于每次网页生产牵涉的数据量增加,成本还会升高。
成本特性解释完了,下来来谈解决之道:
“搜索引擎遭遇危机?”一文里我也说过,改变UI来约束用户行为的随机性,一个做法就是,把不同的搜索分开,使响应同样的关键字请求需要涉及的数据减少,以减少运算开销,并增加已生产网页在缓存中的生命周期,就可以降低成本了。
我们可以详细对比一下两个过程。
比如:目前的网页检索时同一个关键字搜索请求涉及到的数据与一百万个网页有关,这一百万个网页在两次搜索间隔时间里发生100次变化(数据更新、权重变化等),那么后一次搜索直接使用前一次检索结果的缓存页可能性就不大。
如果新的检索UI提供了三十个以上的检索请求入口,同样关联一百万个网页,由于分类细了,权重变化数量减少,一百万个网页在两次搜索间隔时间里的变化数可能降低到80次,落到平均每个类别不足三次,大部分类别是无变化的,这样,就可以直接使用前一次检索产生的缓存页。
如果采取这样的做法,缓存所需空间会增长,但是运算开销会降低,以目前的价格情况来看,单位成本会降低。
而且检索分类细了,对用户来说也是有利的,比如说商情价格比较,用google就无法完成,而在专业的网站,是很简单的事情。
对检索请求进行分类,并为不同的分类提供最合适的UI,是搜索引擎大势所趋。