加载中…
个人资料
一剑飘香
一剑飘香
  • 博客等级:
  • 博客积分:0
  • 博客访问:4,390
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

转载自cnblog.org——“突发”文字可能揭示社会趋势

(2008-02-21 22:14:50)
标签:

杂谈

 

在“新科学家”(New Scientist)在线杂志上,公布了康奈尔大学的一个新研究成果,引人注目,也许与Google 收购Pyra 的动机有关。

 

这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。

 

Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

 

虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。

 

- NewScientist.com news, Word 'bursts' may reveal online trends

- 还没有写完这些介绍,在 SlashDot 上也看到了很多有关这个发现的讨论

 

 

附:Google官方的站点设计指南

 

Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link.  让网站有着清晰的结构和文本链接,所有的页面至少要有一个静态文本链接入口

批注:尽量不要用图片和JAVASCRIPT

Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.

为用户提供一个站点地图:转向网站的重要部分。如果站点地图页面超过100个链接,则需要将页面分成多个页面。

批注:索引页不要超过100个链接:SPIDER只考虑页面中头100个链接

Create a useful, information-rich site and write pages that clearly and accurately describe your content.

用一些有用的,信息量丰富的站点,清晰并正确的描述你的信息。

Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.

想像用户可能用来找到你的关键词,并保证这些关键词在网站中出现。

批注:少用“最大”,“最好”之类的形容词,用用户最关心的词,比如:下载,歌星名字,而不是一些抽象名词。

Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.

尽可能使用文本,而不是图片显示重要的名称,内容和链接。GOOGLE的机器人不认识图片中的文字。

Make sure that your TITLE and ALT tags are descriptive and accurate.

保证:页面的TITLE和ALT标记正确的精确描述

Check for broken links and correct HTML.

检查坏链并修正这些HTML错误。

If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.

如果你打算使用动态页面:链接中包含"?",必须了解:并非所有的搜索引擎的机器人能想对待静态页面一样对待动态页面,保持动态页面的参数尽可能的少也会很有帮助。

Keep the links on a given page to a reasonable number (fewer than 100).

让一个页面中的链接少于100个。

批注:用lynx -dump http://www.chedong.com 可以模拟从robot角度看到的页面。其最后有链接统计

 

输出类似:

 

   [1]Google Free Search _______________________________ Google Search

   (_) Search WWW (_) Search chedong.com

 

   更 新 [2]站点地图 / Site Map [3]留 言簿 / Guest Book [4]意见反馈 /

   Feed Back

    ...

References

 

   Visible links

   1. http://www.google.com/services/free.html

   2. http://www.chedong.com/sitemap.html#sitemap

   3. http://www.chedong.com/guestbook/

   4. http://www.chedong.com/formmail.htm

    ...

   Hidden links:

  50. http://www.chedong.com/bbcweb/

    ...

 

 

搜索引擎的宗旨在于提取互联网中质量最好的内容提供给用户,任何有利于帮助用户获得相对公正,优质内容的策略都是搜索引擎追求目标。PageRank是一个非常好的策略,但是并非所有策略都是基于非常复杂的算法。

从搜索引擎看来什么是互联网中“好”的内容呢?

 

首先:互联网大约是8G个网页,而且以每天2M的速度增长的。其中80%以上是动态网页,而占总量20%的静态网页就是一个相对比较简单的过滤规则。

其次:用户友好(User friendly)也是很重要的方面,搜索引擎利用算法帮助提升这些优质网站,包括:通过CSS将内容和表现分离:较少的javascript和frame结构,spider本身也很难深入抓取这些网页:Javascript和frame结构大部分是广告。

标题明确:无标题,重复标题或者标题SPAM(类似于:游戏游戏游戏游戏游戏游戏这样的标题)进行过滤或降低得分页面大小:因为页面过大会导致用户下载缓慢,所以很多引擎只计算页面大小在100k以内的网页。

链接引用:不仅需要有链接链入,也需要帮助用户找到其他更有价值的内容;

文件类型:PDF和DOC等专业文档和来自edu,gov等非赢利网站的内容;

链入网站的文字:所有用户不可见的因素全部被忽略。此外:用户搜索的行为本身也被Google记录,可能对目标网站的主题相关度有帮助。

 

参考资料:

 

面向Google搜索引擎的网站设计优化

http://www.google-search-engine-optimization.com/

 

 

关于Google排名优化的7个误区,如:"Meta tag", "泛域名",首页等

 

 

如何评价一个网站的人气

http://www.chedong.com/tech/link_pop_check.html

 

如何提高网站在Google中的排名——面向搜索引擎的广告模式

http://www.chedong.com/tech/google_ads.html

 

 

如何提高网站在Google中的排名——面向搜索引擎的网站链接设计

http://www.chedong.com/tech/google_url.html

 

 

Google不断改进相应的算法:HillTop

Hilltop: A Search Engine based on Expert Documents

 

 

Google の秘密 - PageRank 徹底解説

http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html

这篇文章是在查"Google PageRank"的时候查到的,这篇文章不仅有一个算法说明,也是一个Google的weblog,记录了很多关于Google的新闻和一些市场动态信息。

Google 的秘密- PageRank 彻底解说 中文版

 

更详细的PageRank算法说明:

http://pr.efactory.de/

 

 

WEB日志统计工具AWStats的使用:增加了Unicode的解码和中国主要门户搜索的定义

http://www.chedong.com/tech/awstats.html

 

Robots的说明:

http://bar.baidu.com/robots/

http://www.google.com/bot.html

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中哪些内容可以被robot访问,哪些不可以。

 

反Google站点:观点也很有趣

http://www.google-watch.org/

 

关于Google的WebLog

http://google.blogspace.com/

 

 

关于Google的HillTop算法

 

搜索引擎相关论坛

http://searchengineforums.com/

http://searchenginewatch.com

http://www.webmasterworld.com/

 

 

原文出处:<a href="http://www.chedong.com/tech/google.html">http://www.chedong.com/tech/google.html</a>

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有