标签:
IT |
分类: informatization |
互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。 但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。
尽管在过去 20 年间已经做出了诸多相关裁决,不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。
如果被抓取的数据用于个人用途,且在合理使用版权法的情况下,通常没有问题。但是,如果这些数据会被重新发布,并且抓取行为的攻击性过强导致网站宕机,或者其内容受版权保护, 抓取行为违反了其服务条款的话,那么则有一些法律判例可以提及。
在 Feist Publications, Inc. 起诉 Rural Telephone Service Co. 的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。
在澳大利亚,Telstra Corporation Limited 起诉 Phone Directories Company Pty Ltd 这一类似案件中,则裁定只有拥有明确作者的数据,才可以受到版权的保护。
而在另一起发生于美国的美联社起诉融文集团的内容抓取案件中,则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。
此外,在欧盟的 ofir.dk 起诉 home.dk 一案中,最终裁定定期抓取和深度链接是允许的。
还有一些案件中,原告控告一些公司抓取强度过大,尝试通过法律手段停止其抓取行为。
在最近的 QVC 诉讼 Resultly 的案件中,最终裁定除非抓取行为造成了私人财产损失,否则不能被认定为故意侵害,即使爬虫活动导致了部分站点的可用性问题。
这些案件告诉我们,当抓取的数据是现实生活中真实的公共数据(比如,营业地址、电话清单)时,在遵守合理的使用规则的情况下是允许转载的。
但是,如果是原创数据(比如,意见和评论或用户隐私数据),通常就会受到版权限制,而不能转载。
无论如何,当你抓取某个网站的数据时,请记住自己是 该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。
这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款,确保你所获取的数据不是私有或受版权保护的内容。
—— [德] 凯瑟琳·雅姆尔(Katharine Jarmul)、 [澳] 理查德·劳森(Richard Lawson)