加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

中文内容页面重复性比英文的高10倍

(2010-01-30 10:06:32)
标签:

网页

内容

重复度

抄袭

财经

分类: 网络出版与版权
前几天,探讨用共享链接与推荐评论代替复制转帖时提到,互联网上的中文内容重复性应当比英文高很多,当时提到一个猜测,如果英文的是1,简体中文的也许是10到100。想到一个不太复杂的方法,可以对这个指标做出简单评估,就调查了一下,得出的结果是:以内容为主的网页,简体中文页面的重复度,比英文页面高约10倍,绝对值大约在7-8之间。也就是说,每个主要目的是呈示内容的简体中文网页,大约可以找到7个具有同样内容的网页,而对英文页面,只能找到约0.7个。以上结果和完整的调查报告,全文发表在EE-Forum.org,点击这个链接,里面详细记录了调查的方法。

在调查过程中还验证了另一个经验,就是中文页面里的“主体内容”与“其它内容”的比例也大大低于英文页面,这只是在观察200多个页面样本时的观察判断,没有具体搜集数据进行调查。但也尝试着提出了一个衡量“内容”在互联网上占用静态资源的指标,它应当由主体内容和其他内容的比例,以及单一页面的重复度这两个基本要素决定,参见这里

上述调查结果一个直接的推论,就是简体中文互联网存储资源的静态存储设备,至少在与这部分使用相关的方面,利用率比英文世界低了一个数量级。第二就是你读取一个内容,是原发的机会也低了一个数量级,也就是所谓“割裂原作与读者之间直接联系”的效果。对于那些有更新的内容而言,这肯定会使内容的不一致提高。还有为搜索内容而耗费的资源(体现在建立索引和查找两个方面)也可能升高。也许这些都还不重要。我更看重的是,这个“10倍”比例,也直接显示了内容抄袭这一现象的严重程度。我认为,抄袭是中文内容产业的无形杀手。在互联网空间里,那些靠复制内容为生的网站,是比垃圾还有害的物质:不仅污染了环境,还直接吸血。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有