#随我阅读#网络爬虫是否合法_偏锋走剑

个人资料

微博

正文字体大小：大中小

#随我阅读#网络爬虫是否合法

(2022-04-08 16:46:56)

标签：

分类： informatization

互联网包含了迄今为止最有用的数据集，并且大部分可以免费公开访问。但是，这些数据难以复用。它们被嵌入在网站的结构和样式当中，需要抽取出来才能使用。从网页中抽取数据的过程又称为网络爬虫，随着越来越多的信息被发布到网络上，网络爬虫也变得越来越有用。

尽管在过去 20 年间已经做出了诸多相关裁决，不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。

如果被抓取的数据用于个人用途，且在合理使用版权法的情况下，通常没有问题。但是，如果这些数据会被重新发布，并且抓取行为的攻击性过强导致网站宕机，或者其内容受版权保护，抓取行为违反了其服务条款的话，那么则有一些法律判例可以提及。

在 Feist Publications, Inc. 起诉 Rural Telephone Service Co. 的案件中，美国联邦最高法院裁定抓取并转载真实数据(比如，电话清单)是允许的。

在澳大利亚，Telstra Corporation Limited 起诉 Phone Directories Company Pty Ltd 这一类似案件中，则裁定只有拥有明确作者的数据，才可以受到版权的保护。

而在另一起发生于美国的美联社起诉融文集团的内容抓取案件中，则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。

此外，在欧盟的 ofir.dk 起诉 home.dk 一案中，最终裁定定期抓取和深度链接是允许的。

还有一些案件中，原告控告一些公司抓取强度过大，尝试通过法律手段停止其抓取行为。

在最近的 QVC 诉讼 Resultly 的案件中，最终裁定除非抓取行为造成了私人财产损失，否则不能被认定为故意侵害，即使爬虫活动导致了部分站点的可用性问题。

这些案件告诉我们，当抓取的数据是现实生活中真实的公共数据(比如，营业地址、电话清单)时，在遵守合理的使用规则的情况下是允许转载的。

但是，如果是原创数据(比如，意见和评论或用户隐私数据)，通常就会受到版权限制，而不能转载。

无论如何，当你抓取某个网站的数据时，请记住自己是该网站的访客，应当约束自己的抓取行为，否则他们可能会封禁你的 IP，甚至采取更进一步的法律行动。

这就要求下载请求的速度需要限定在一个合理值之内，并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款，确保你所获取的数据不是私有或受版权保护的内容。

—— [德] 凯瑟琳·雅姆尔(Katharine Jarmul)、 [澳] 理查德·劳森(Richard Lawson)

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report