加载中…
正文 字体大小:

Google老矣,尚能饭否?

(2006-05-25 10:13:40)
Google老了,二月份起不正常,到现在还没恢复,具体表现在:1.二月中旬以后发布的网站,被收录网页数一般都不足10,大部分只收了一页;2.没处理完成的网页也急着发布索引,导致长字串完全匹配方式的搜索无法命中用其他方式可以查到的网页,而百度能,看了一下那些网页在百度的版本日期,最早是2月17日的;3.三月中旬以后,中文网页收录与过期网页释放几乎陷入停顿,已存数据也是不停打摆子,sina.com.cn被收录网页数从1900万到4200万摇摆;4.出现向合作伙伴“借”数据的现象,呵呵,如果有心人,应该可以看到;5.号称要加大社会性搜索投入,可是,相对其他专业搜索网站,进展慢得可怜。
Google老了么?出路何在?google使用蜘蛛爬网页的方式,如果拿仓库打比方,就象一个没有出库入库手续的仓库,如果需要了解仓库里有什么东西,就总需要人隔段时间进去点算一次,而有出库入库手续的仓库呢,只用根据出库入库凭单汇总就行了,google现在就是采用无手续的仓库管理方式,这种方式,在起步阶段是容易起来,那时网页数据量小,自己开发网站服务器或者相应的软件去为网站主动发布索引提供支持,看上去难度太高了,所以,用蜘蛛,符合当时的条件,可是,现在网络信息量已经爆炸式增长,再妄图通过爬虫编制网络信息索引,简直有些搞笑哦。这种方式,服务器 危机早就在哪儿,谁跑最快谁会最先遇到,而且靠增加服务器来摆脱危机也是很可笑的解决办法,因为路子不对。
记得以前书呆子说,硬盘总是比带宽便宜,所以,要降低成本,就要用硬盘拼带宽,对于被索引的网站来说,应付爬虫的带宽和计算消耗也比自己做索引和索引存储的消耗要大,也就是说,其实,google的服务器危机的解药,早就已经在MS手中,google要想这次不被MS用捆绑的办法打败,嗯,也做服务器操作系统吧。如果MS出来对拼,先把服务器操作系统免费?很好的自宫办法。Google发布免费的服务器操作系统不会造成自己收入减少,MS呢?
Google魅力越来越差了,记得原来我还从快照里搜到过郭去疾的简历,以前记得还有过版本比较功能,就是提供一个目标网页早期版本可以对比的,如果把索引推进到网 服务器上去,这些很有用的功能就可以继续提供了,而且,嗯,一些ASP服务也可以通过服务器软件提供。
Google能恢复年轻么?拭目以待……

脆弱的Google
1.它假定用户访问多的地方是重要页面,那么,我可以让机器人去诱惑它认为我的网页很重要;
2.它假定被重要页面链接多的页面也是重要页面,我可以根据它的算法优化链接;
3.它假定作弊的就是站长,我可以帮站长作弊导致站长的网站被封(被google停结算甚至删除帐号);
4.它把一件事情分两个线程去做,但是是按估算的时间来假定两线程的完成时间,这样,会导致楼上说的没完成的网页也发布出来,如果检查,工作量又会很大。

来点数据
某网站某频道有九成访问量来自google,google爬虫下载页面数相当于真实用户PV的三分之一,也就是说四分之一的带宽给了google,这些带宽费用够买多少硬盘啊,5555

Donews的WIKI也对百度发出抱怨http://www.donews.com/Content/200605/ec1680b107974484bd1471dd54b8a99e.shtm

谁能救Google?美国法院?
一个问题啊,加到MS上的刀也可以加到google行,如果美国法院要求google在为网站提供索引服务器软件(安装到各网站服务器上的)时公开数据格式或接口,google有危险么?

0

阅读 评论 收藏 转载 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有