加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

#随我阅读#网络爬虫是否合法

(2022-04-08 16:46:56)
标签:

IT

分类: informatization

互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。 但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。

尽管在过去 20 年间已经做出了诸多相关裁决,不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。

如果被抓取的数据用于个人用途,且在合理使用版权法的情况下,通常没有问题。但是,如果这些数据会被重新发布,并且抓取行为的攻击性过强导致网站宕机,或者其内容受版权保护, 抓取行为违反了其服务条款的话,那么则有一些法律判例可以提及。

在 Feist Publications, Inc. 起诉 Rural Telephone Service Co. 的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。

在澳大利亚,Telstra Corporation Limited 起诉 Phone Directories Company Pty Ltd 这一类似案件中,则裁定只有拥有明确作者的数据,才可以受到版权的保护。

而在另一起发生于美国的美联社起诉融文集团的内容抓取案件中,则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。

此外,在欧盟的 ofir.dk 起诉 home.dk 一案中,最终裁定定期抓取和深度链接是允许的。

还有一些案件中,原告控告一些公司抓取强度过大,尝试通过法律手段停止其抓取行为。

在最近的 QVC 诉讼 Resultly 的案件中,最终裁定除非抓取行为造成了私人财产损失,否则不能被认定为故意侵害,即使爬虫活动导致了部分站点的可用性问题。

这些案件告诉我们,当抓取的数据是现实生活中真实的公共数据(比如,营业地址、电话清单)时,在遵守合理的使用规则的情况下是允许转载的。

但是,如果是原创数据(比如,意见和评论或用户隐私数据),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是 该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。

这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款,确保你所获取的数据不是私有或受版权保护的内容。

—— [德] 凯瑟琳·雅姆尔(Katharine Jarmul)、 [澳] 理查德·劳森(Richard Lawson)

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有