梳理自己的互联网生涯
个人信息
齐宁
公告
  • 联系方式
    MSN:i@qining.org
日历
最新文章
最新评论
最新留言
相册
友情链接
访客
好友
音乐播放器
“我的2008”徽章
爱心接力棒
计数器
          
rss
 
推荐订阅:订阅到RSS阅读
内容
  •  
    2008-05-26 10:46:59

         中文分词是将一句话或一个短语按照日常阅读习惯进行机械分解。英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,我很喜欢搜索引擎,分词的结果是:我|很喜欢|搜索引擎。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。
         中文每个字都可以直接作为一个词来使用,没有断词,正因为此它才多变。虽然多变,但是在表达上灵活。但是对于搜索引擎来说这是非常难以解决的问题。在中文分词当中,有三种难分类型。
    1、交集型歧义
         假设“ABC”是一个由A、B、C三个汉字构成的字串,如果 “AB”、“BC”都是词,那么计算机在切分时可以把“ABC”切分为“AB/C”,也可以切分为“A/BC”。这种切分歧义称为交集型歧义。
    2、组合型歧义
         如果“AB”是词、“ABC”也是词,那么产生的切分歧义称为组合型歧义。
    3、混和型歧义
         混和型歧义是包含交集型歧义和组合型歧义的切分歧义。
         目前解决这些问题主要通过字典和统计学的方法。
         首先我们先说说字典分词法。字典一般采用前缀树和后缀树的数据存储结构。什么是前缀树呢?其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。后缀树就是从右向左扫描一遍。
         统计学的方法,虽然字典分词已经解决了很多分词上出现的问题。但是面对很多新出的词汇,分词也面临着挑战。统计学的分词方式是基于概念和信息学方面的知识进行处理。基本原理就是寻找那些经常一同出现的字,总是相互的字很有可能构成一个词。为此需要分析大量内容。即使到现在中文分词还在不断发展,还没有一个分词方法能彻底解决一切问题。

    对中文分词有兴趣的读者,可以阅读以下文献:
    1. 梁南元
    书面汉语自动分词系统
    http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
    2. 郭进
    统计语言模型和汉语音字转换的一些新结果
    http://www.to

  •  
    2008-04-14 16:13:05
     

      对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

      网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。

      1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995]。之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

      网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。
    1、两个页面内容格式完全相同。
    2、两个页面内容相同,但格式不同。
    3、两个页面部分内容相同并且格式相同。
    4、两个页面部分重要相同但格式不同。

    实现方法:
    网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,一、特征抽取。二、相似度计算和评价。三、消重。

    1.特征抽取
    我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。
    特征抽取有很多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
    “I-Match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。
    “Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。

    2.相似度计算和评价
    特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。
    I-Match算法的特征只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一

  •  
    2008-01-17 15:59:06
      在说搜索引擎危机公关之前齐宁要先跟大家交流一下,什么是危机公关。危机公关是某产品、公司、品牌,由于企业的变化或是社会上特殊事件引发的,对于一个企业或一个品牌产生的不良影响,一旦发生,使企业内部和企业外部都产生恐惧和怀疑,在企业公共关系上导致危机。并且在很短时间内涉及很广的社会层面,这种不良影响。而在最短时间内利用各种资源来把这些不利信息消除的这种行为叫做危机公关。

      什么叫搜索引擎危机公关?

      互联网已经成为非常重要的一大媒体,其信息传播速度之快之广的属性是任何媒体无法比拟的。很多负面信息也随着互联网迅速传播。而现在很多网民都是通过搜索引擎来搜索某企业或品牌的相关信息,当搜索这些品牌以及产品时出现一些负面信息将对该企业带来不良影响。搜索引擎危机公关是指,利用搜索引擎能对企业的相关品牌形象进行公关。尽可能的避免在搜索企业的相关人物,产品服务出现负面信息。

      搜索引擎危机公关重点

      1、关键词

      搜索引擎使用最关键的一个条件就是搜索关键词,搜索引擎危机公关要根据企业出现的负面信息来规划关键词,一般是以公司品牌和事件名称为主要关键词。

      2、搜索结果

      根据搜索引擎的特性和网民的浏览习惯,搜索引擎一般会把最新的信息体现在搜索结果的前三页。所以在我们对搜索引擎进行公关时将把目标锁定在搜索结果前三页。

      3、信息来源

      搜索结果中的数据不是来自搜索引擎本身,而是来自各个独立的网站。负面信息往往来自媒体网站、博客网站、论坛网站和分类信息网站等。媒体网站往往比较集中,公关难度不大,后面的三种来源,数量众多,发布人、发布时间不可控制,处理起来相当困难。

      搜索引擎危机公关方法

      在进行搜索引擎危机公关的时候我们要先做好很多的前期工作。然后根据不同时间进行操作。齐宁将这种形式归纳为两个标准一个执行。

      危机公关是场持久战,负面信息的发布者通常有两类人,一类是竞争对手雇佣的枪手,他们有强大的后盾和装备,需要更强的力量才能打败;另一类是情绪高涨的网民,他们有足够的时间和精力,不遗余力的发布和转载负面信息,要打败他们,需要坚持不懈地巩固好正面阵营。搜索引擎不只一家,确保各家都没问题

  •  
    2007-12-25 11:43:36
    标签:it

    Google是我最喜欢的搜索引擎,我被Google的精神而折服,被Google的文化而感染,我可以说是Google的超级粉丝之一了,今天看了一些东西,与Google的爱好者,以及想了解Google的人分享一下。Google,真不愧为世界最强的搜索引擎。下文为Google在为搜索引擎提供搜索过程中的服务过程.

    1、搜索框
    一切以任何人在网络上展开搜索为起点。任何关键词,比如:微码互联

    2、域名服务器
    Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们唯一的目的,是计算出哪些集群此刻最不繁忙,以便尽可能高效的“指引”这些搜索进入Google的集群。

    3、集群
    这些搜索请求一刻不停地留入Google分布在全球的各地数据中心的至少200个集群中。
    集群控制器,Google天赋表现在它的网络软件上,它能帮助一个集群中的成千上万台廉价的电脑像一个巨型硬盘一样工作。那些便宜的电脑允许Google在不停止整个“表演”的情况下替换局部组件:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备,此间,工程师会把那台坏了的电脑换下。

    4、网络服务器
    这个程序把一个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务。这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。

    5、索引服务器
    Google所以知道的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓此存储在内存中几个小时,而不是重新再搜索一遍。

    6、档案服务器
    在索引服务器把所有的结果汇编后,档案服务器抽出所有相关的文件---巨大的数据库里的链接和文章摘录。Google如何做到快速地搜索页面?其实它没有。Google在它已建立了索引的档案服务器中保存了三份互联网上的所有资料,这些资料都已经分门别类,做好了被使用的准备。
    容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个perabytes的数据(1pb等于100万G)。不那么保守的《连线》杂志则说,Google可能有200个pb

  •  
    2007-12-21 12:13:26
         经历过很多客户,我感觉对与一个已经建成企业网站成败,无非就是两点。一、此网站是否能代表企业的整体形象;二、能不能达到预期的整合营销和推广的效果。网站漂亮是一方面,要想发挥网站的价值,关键还是要看这个站点是否能被搜索引擎而承认,使用的推广手段能否让外界承认,承认后能不能通过这个站点转换有效的用户。企业网站现在绝对不是一个“面子工程”!静下心来,让我们冷静的分析一下网站,找到网站的问题吧。
          因工作原因我接触到很多企业网站拥有者,这些网站多多少少都存在着不同程度的问题。我今天将从网站的营销层面和网站的运营层面来教大家如何去诊断一个网站,找到网站的问题,对症下药。
          我们先给企业网站的病状下一个定义:企业建立网站,最终目标就是帮助企业通过网站得到销售机会,销售机会表现在促进企业网站上的销售、提升企业的品牌扩大企业的营销渠道、提升企业的整体形象,一切无法给企业带来赢利的网站都是有问题的网站。
          我将网站诊断分为三个层面,从网站可信度到网站技术运营都要进行缜密诊断。我将教大家如何去做一个完善的网站诊断。

    ◆网站可信度
          说到网站可信度可能很多网站都没有意识到这一点,一个经营产品的网站如果给人感觉不正规,俗话说小气,我相信对于浏览者(潜在客户)是不会去打电话向你咨询的。所以说提到信任度优化要考虑到排版,要控制好字与字,行与行之间的距离,控制好字体的颜色,以优化, 一定要体现出你的网站在这个行业是内是专业的。比如说,一个医院网站,结果大体色调是黑色,这肯定是与医院这个行业不协调的。所以对于一个商务网站来说, 最重要的就是在最短的时间内获得浏览者的信任。但是许多商务网站此方面做的不好。所以我们在做网站诊断(www.micromarketing.cn/edmjs.htm)的时候第一就要考虑到这个网站是否诚信,主要从认证:很多人比较信任红盾认证,ICP注册认证。诚信优化的思路都是90%免费的信息吸引众多的客流,然后靠10%甚至更优化主要要考虑到一下几方面细节:
    1、联系方式:
          很多小型的网站还有那些做非法生意的网站,你都很难在网站上找他的联系方式。如果一个企业

  •  
    2007-11-13 13:45:26
      最近这段时间因几个客户的网站连续出现问题,被BAIDU进行降权,甚至被封杀。对于这些出现的问题,我非常的不理解。这些客户并没有进行恶意作弊,优化也是很正常的,是什么原因造成的这些问题?我对BAIDU的这一现象进行了分析。这个问题站在SEO的角度去想,主要是网站的自身原因。一个网站可能会因为结构的不合理性就会容易出现类似  的问题。那么如何提升你的站点对搜索引擎的权重?或者是如何解决降权或封站问题呢?今天我们将通过这篇文章与大家讨论研究。
    对于出现搜索引擎对网站降权(搜索引擎封闭站点的某个页面,或减少收录量,这就是我们经常说的降权)或封站(搜索引擎不收录该站点,或者将该站点在搜索引擎中的所有页面删除)问题,主要是在于网站本身,刚才说到那两个客户都是出自一个网站设计人员,网站使用的程序基本相同。出现的问题也基本相同,BAIDU只收录网站的首页。而GOOGLE收录效果却良好。
    解决这些问题根本上就是要先提升您的站点在搜索引擎中的权重,让搜索引擎认可您的站点。我总结了大概有六点问题:

    一、精代码
       很多网站都为了自己页面的美观华丽,为了实现一些复杂的功能而使用很多繁琐的程序来进行控制,而且在部署使用这些程序的时候,非常不注意这些程序的工整性,经常没有任何原则的随便胡乱插入,这样会让搜索引擎非常困惑,没有思路。所以为了搜索引擎能够更好的收录您的站点,请放弃那些花哨或一些不实用的功能吧。

    二、改结构
    网站的结构也就是说网站的整体框架。刚才说到的那两位客户,为了实现一些在线功能,一个页面出现了六个iframe。虽然搜索引擎都在进步,Google已经避免了此问题,但Baidu仍然不是很喜欢存在iframe的页面。
    对于网站的内部链接情况,一定要本着清楚明白、保持链接通畅、尽量不要出现死链坏链情况。对于出现死链问题(如果是自己的服务器),可以重新制定错误信息。
    定期使用Google Webmaster Tools或Xenu来检查自己的站点。

    三、重质量
       网站应当具有一定的质量,如果一个网站不能给用户提供有价值的信息和内容,会被搜索引擎大打折扣,搜索引擎也一样很注重网站内容、页面质量,内部链接、外部链接质量和网站最终页面质量。
       内容质量,我
  •  
    2007-10-22 15:10:33
    标签:it/科技

      昨天参加了一个在北京举行的SEO交流会议,我本以为这次大会与类似一些互联网大会,漫山遍野的广告,疯狂的捧吹,没有什么实质性的意义。但是昨天的会议,真是一场名副其实的SEO人大会,一场热爱SEO事业人的大会。

       这次会议使我感触颇深,看到这么多的SEO爱好者拥护者,我感觉激动并非常高兴。确实,SEO正在成长,群体队伍不断扩大。希望有更多人来传播SEO的正确思想。同时我想对所有的SEO事业经营者,SEO工作相关工作者简单的说几句。

    如果你是一名真正的SEO请放下你的一些恶意行为,不要为了利益和谋生而招摇撞骗,破坏游戏规则。一个名副其实的SEO人,是将SEO的真正思想传播出去,而不是用SEO做为一种造钱机器。我们因搜索引擎优化爱好和交流走到一起,我们渴望传播正确的SEO思想和技术,并不是金钱!

       很多人都误以为SEO就是搜索引擎排名!别忘了,SEO是Search Engine Optimization直译的中文是“搜索引擎优化”。归根到底,我们是根据搜索引擎的搜索喜好和行为习惯,通过调整网站结构而建成利用搜索引擎抓取结构;部署与网站紧密结合符合搜索引擎的搜索收录机制的关键词;适当的调整内部链接建立内部体系;少而精准的部署真正的外部链接,来优化自己的网站,更适合搜索引擎的搜索结果。不是对立于搜索引擎,而是为搜索引擎提供他喜欢的优质内容,给搜索引擎使用者提供更快更准确的搜索结果。SEO与搜索引擎是分不开的两个兄弟,而不是对立的敌人。我更愿意把SEO称为优质内容提供者和搜索引擎维护者。

    SEO需要用心去体会。

       所有事物的发展不外乎萌芽,发展,衰落几个阶段。现在的SEO市场正处于一个初步发展阶段,很多人把它看的非常神秘和高深莫测,对SEO的认识也存在一些误区。现在也有不少团体在为使用者对SEO和搜索引擎做着正确的引导和指向。我相信终将会有一天SEO会趋向成熟,为广大用户提供完美的内容和完美的网站,并形成一个良好的互联网氛围。

       我02年开始接触搜索引擎优化,03年正式经营。当初我们很多的搜索引擎爱好者,因为接触BAIDU和BAIDU的搜索引擎论坛(BAIDU最早期的一个论坛产品,现在已经关闭)而走到了一起。还记得当初的“搜索引

  •  
    2007-10-18 17:30:29
    标签:IT/科技

    搜索引擎长尾关键词理论及实战

     

        作为一个网站运营者,一定要对自己的网站有个非常明确的定位,要知道自己的目标群体是谁,它有什么样的喜好和浏览习惯。只有这样才能做出最准确的营销推广决策,用最少的钱办最大的事,得到最大的宣传和针对性效果,这是我们作为一个网站运营者务必要考虑的问题。前一段时间很流行长尾理论,现在我们就完全可以将这一理论融合到网站推广运营中。

    怎样融合呢?现在先从网站运营最基础层的搜索引擎方面开始吧。随着互联网的普及和发展,搜索引擎已经成为了每个网民获取知识,寻找东西的必经之路。

    当我们在使用搜索引擎的时候,脑子里会有两个潜在意识,一、想要了解,我想了解某些知识。二、想要寻找,我想寻找某种东西。这两点普遍存在搜索引擎使用者的意识中。所以在运营网站或做SEO部署的时候,一定要把客户的潜在意识搜索内容部署到网站中,这也是我们经常所说的长尾关键词部署,只有这样才有可能让用户通过搜索引擎找到自己的网站。便能带来一个最有效的访问量,并有可能转换成为你的一个真实用户。

    什么是长尾关键词

  •  
    2007-10-14 09:50:53
     

    我最早接触SEO是在2002年,从事SEO的人士都应该知道03年中国的SEO市场非常混乱繁杂。把一个网站的关键词两三天之内做到GOOGLE的前几位是件很简单的事情。某些人急功近利,常常会采用一些可能被GOOGLE当成作弊的手段来快速达到排名效果,这些手段也是各式各样,如跳转页面、门页、高资源站引入资源用等。GOOGLE在打入中国市场之前,为拓展中国市场做了一系列准备,连续进行了多次技术改革,搜索质量上进行了很大的提升,并对那些过激的手段的网站分批“下线”,这对中国的SEO打击很大,很多圈内的朋友都转向了其他业务。当时我的网站也受到了一些影响,其实我相当理解搜索引擎的这一系列的行为,净化中国市场,促进SEO行业健康稳定的发展是件好事,同时也考验了一些从业者自身的技术水平和职业素质。随着网络营销的发展,搜索引擎变得越来越“聪明”, SEO的弊端也越发明显:围绕着搜索引擎排序规则,而非站在搜索引擎相同的立场来优化网站。

    回想起当初为一个关键词争的你死我活的时候,真有些好笑,确实也挺好笑。搜索引擎是在网络上对网民提供便利的工具,我们为什么要这样去“祸害”它呢?做为一个SEO人,觉得有些自愧。

    随着年龄的增长,对SEO的理解渐渐深刻。多年的网站运营经验也使我越来越能体会到SEO的深处。我经常跟我的客户沟通交流,SEO不仅仅是搜索引擎的优化,而是一个网站运营和一个思想的优化。我们应该发扬这种优化精神,来打造我们自己的互联网,给我们这些依靠互联网生活的人创造一个良好的空间。用SEO的知识让搜索引擎喜欢自己的网站。让搜索引擎用户最快,最准确的找到想要的内容。

    现在,当我在网络上寻找某些内容的时候,那些“垃圾”的东西虽然明显的比较少了,但一些公司为了达到关键词排名的最终效果,仍然还在使用着一些“非常”手段,例如一些BLOG的里面的关键词链接群,留言板里的链接群等等,真像一块块牛皮癣不仅影响别人的网站也影响着搜索引擎的搜索。我想要说的是,搜索引擎排序规则千变万化,同样也在不断的完善。我们最终目的是要把用户想搜索的内容展现给用户的,搜索引擎会不断的完善用户体验,完善自己的排名搜索机制。

    预言SEO发展

    从网站经营者角度:做为一个网站经营者,要具备非常全面的知识,从最初的网站建设到栏目的规划再到后期的运营都是非常细节的工作。这里主要从网站经营者的运营初步来阐述一些SEO方面的发展和改变。

  •  
    2007-10-14 09:42:20
    标签:IT/科技
     

     北京 齐宁 2006年11月4日市场运作分析

     

    阿里巴巴简介

    阿里巴巴是一个综合类商业(B2B)网站,是全球最大的网上贸易市场。阿里巴巴已注册的买家、卖家共计:810多万。来自全球240多个国家和地区。每天新增买家、卖家15847多名。阿里巴巴是个非常活跃的市场,网上共计587万多条的供求信息,每天通过筛选的新增供求信息达107500多条。阿里巴巴国际站日平均浏览量达215万人次,世界排名第36位, 阿里巴巴对18,000会员的抽样调查, 97%的发布信息得到反馈,47.4%的会员每天都要登陆阿里巴巴,26.3%的会员每周登陆2-4次。

    市场服务分析

    最好的流量就是你的用户,要想留住用户必,须服务于用户,让用户知道社区产品该如何应用,网站产平该如何使用到最佳,最大化应用。完全以用户为中心,建立完善的客户服务体系。不是简单的服务,而是全面的植入式扶持性服务,阿里巴巴在这方面就做的非常到位。

    阿里巴巴主要的产品就是B2B,从市场角度来分析阿里巴巴社区,阿里巴巴商人社区主要是为了聚集拓展新用户,维护现有B2B用户。囊括市场用户的拓展和维护,这两项是市场至关重要的。他们针对以上所提到的这些,主要采取了几种方式,而针对的层面和意义也是不同的:
    1、以品牌带动社区,拓展新用户;
    2、完善的服务体系;
    3、完善的财富值制度;
    4、聘请贸易相关专家;
    5、阿里直播中心;
    6、建立了完善的社区论坛系统;
    7、建立了自己商博客系统;

    8、市场运做行为;

    通过以上的市场动作,阿里巴巴可以说是牢牢的把用户把握在了自己的手中,让用户享受一条产业链化的市场服务,植入人心,这些均是阿里巴巴商人社区在市场方面的优势。




    一、以品牌带动社区,拓展新用户

       阿里巴巴商人论坛,是建设在B2B之后的。依托现在有的阿里巴巴B2B品牌可以给阿里巴巴商人论坛带来一些稳固的客户,在加上贸易通软件和论坛服务紧密结合,都形成了阿里商人论坛的规定稳固客户来源。

    同时阿里巴巴商人论坛已经形成了自己的“商人论坛”独立品牌。阿里巴巴B2B网站也给予了商人论