标签:
网页内容重复度抄袭财经 |
分类: 网络出版与版权 |
前几天,探讨用共享链接与推荐评论代替复制转帖时提到,互联网上的中文内容重复性应当比英文高很多,当时提到一个猜测,如果英文的是1,简体中文的也许是10到100。想到一个不太复杂的方法,可以对这个指标做出简单评估,就调查了一下,得出的结果是:以内容为主的网页,简体中文页面的重复度,比英文页面高约10倍,绝对值大约在7-8之间。也就是说,每个主要目的是呈示内容的简体中文网页,大约可以找到7个具有同样内容的网页,而对英文页面,只能找到约0.7个。以上结果和完整的调查报告,全文发表在EE-Forum.org,点击这个链接,里面详细记录了调查的方法。
在调查过程中还验证了另一个经验,就是中文页面里的“主体内容”与“其它内容”的比例也大大低于英文页面,这只是在观察200多个页面样本时的观察判断,没有具体搜集数据进行调查。但也尝试着提出了一个衡量“内容”在互联网上占用静态资源的指标,它应当由主体内容和其他内容的比例,以及单一页面的重复度这两个基本要素决定,参见这里。
上述调查结果一个直接的推论,就是简体中文互联网存储资源的静态存储设备,至少在与这部分使用相关的方面,利用率比英文世界低了一个数量级。第二就是你读取一个内容,是原发的机会也低了一个数量级,也就是所谓“割裂原作与读者之间直接联系”的效果。对于那些有更新的内容而言,这肯定会使内容的不一致提高。还有为搜索内容而耗费的资源(体现在建立索引和查找两个方面)也可能升高。也许这些都还不重要。我更看重的是,这个“10倍”比例,也直接显示了内容抄袭这一现象的严重程度。我认为,抄袭是中文内容产业的无形杀手。在互联网空间里,那些靠复制内容为生的网站,是比垃圾还有害的物质:不仅污染了环境,还直接吸血。
在调查过程中还验证了另一个经验,就是中文页面里的“主体内容”与“其它内容”的比例也大大低于英文页面,这只是在观察200多个页面样本时的观察判断,没有具体搜集数据进行调查。但也尝试着提出了一个衡量“内容”在互联网上占用静态资源的指标,它应当由主体内容和其他内容的比例,以及单一页面的重复度这两个基本要素决定,参见这里。
上述调查结果一个直接的推论,就是简体中文互联网存储资源的静态存储设备,至少在与这部分使用相关的方面,利用率比英文世界低了一个数量级。第二就是你读取一个内容,是原发的机会也低了一个数量级,也就是所谓“割裂原作与读者之间直接联系”的效果。对于那些有更新的内容而言,这肯定会使内容的不一致提高。还有为搜索内容而耗费的资源(体现在建立索引和查找两个方面)也可能升高。也许这些都还不重要。我更看重的是,这个“10倍”比例,也直接显示了内容抄袭这一现象的严重程度。我认为,抄袭是中文内容产业的无形杀手。在互联网空间里,那些靠复制内容为生的网站,是比垃圾还有害的物质:不仅污染了环境,还直接吸血。