标签:
搜索引擎数据结构 |
分类: 搜索引擎 |
记得我在前面有篇博客里说到过中等规模web2.0网站的数据结构问题(http://blog.sina.com.cn/u/59191ea60100083c),数据结构造成总线带宽与网络带宽比例倍数过高,超出服务器能力的问题。这个问题,在搜索引擎来说,是天然存在的,搜索引擎每个页面生产成本高,发行次数少,服务器一开始就采用费用很高的总线带宽/硬盘比,用高速CPU,大内存,小硬盘,来提供强大的网页生产能力。
即使这样,搜索引擎的问题到今天依然凸现:收录网页量越大,响应一个搜索请求要关联的数据量越大,每个网页生产成本越高,而且由于搜索引擎用户行为特征,网页生产成本不会随发行量急剧降低(以内容为主的新闻网站每个网页的发行成本随发行量增长而急剧降低),搜索引擎会被迫加速释放历史网页,从而降低每个网页的生产成本。
照这个趋势发展下去,搜索引擎还有什么意义呢?
考虑总线与硬盘费用比例,如果搜索引擎能改善数据结构,并通过UI约束用户行为,降低用户行为的随机性,使部分网页生产成本能降低,也许目前的危机可以解决。
前一篇:IT业界最牛老板
后一篇:不要让你的朋友觉得丢人