网络爬虫战争刚刚升级。
去年12月,谷歌宣布对网络爬虫公司SerpApi采取法律行动。SerpApi的API允许客户的爬虫模拟人类搜索行为,谷歌声称该公司的工具"绕过了安全措施",这些措施本来是为了保护其搜索结果,防止被用来满足许多AI大语言模型对训练数据的巨大需求,而这种行为往往没有得到网站所有者的知情或许可。
现在SerpApi开始反击。2月20日,该公司在加利福尼亚州法院提交了驳回动议,称谷歌试图"将《数字千年版权法》武器化",以阻止其他公司做谷歌自己一直在做的事情:大规模网络爬虫。
该公司在书面声明中表示:"谷歌认为它拥有互联网。这是它对SerpApi提起诉讼的潜台词,这个原本静悄悄的部分现在突然决定大声喊出来。问题是,没有人拥有互联网。法律对此很明确。"
法律并不明确
然而,尽管SerpApi如此声称,法律实际上并不十分明确。
知识产权律师Kirk Sigmon表示:"虽然明确的事实(比如天空是蓝色的这个概念)不受版权保护,但法院经常发现此类事实的汇编在一定程度上是受版权保护的。例如,百科全书或电话簿可能在一定程度上受版权保护(比如在编排方面),即使它们基本上都包含基本事实。"
他指出:"换句话说,谷歌是否对其生成和提供的搜索结果、摘要、信息拥有版权,这是一个悬而未决的问题。如果以这种方式定义工作,SerpApi将面临更艰难的战斗。"
但一些观察者认为,谷歌和SerpApi之间的争端已经显得过时了。
AI搜索优化咨询公司Harton Works的创始人Martin Jeffrey说:"从我的角度来看,这感觉像是一场过时的诉讼。爬虫和抓取技术已经从几年前的水平发展了。自10月以来,我们看到了大量中国搜索流量通过新加坡路由,试图掩盖其来源。我们还看到AppleBot大幅增加的实例。该行业已经超越了SerpApi。"
此外,他指出:"这些来自中国的实例可能会对使用WordPress的企业网站或维护不善的网站产生影响。这些企业可能发现他们的知识产权或以前隐藏的内部网络消息现在正被用于AI语言模型中。"
他补充说,谷歌并不是唯一进行大规模AI训练数据爬取的公司;其他AI企业正采用不同的方法来获取数据。"Anthropic和OpenAI过去做了很多爬取工作,但这在去年发生了变化。ChatGPT仍然严重依赖爬取,但现在正在减少。我们看到Anthropic使用量大幅减少;Claude在做什么还不完全清楚,但看起来他们不是在爬取整个网站,而是选择单个页面。"
不过,知识产权律师Sigmon指出,目前还无法确定法庭案件的结果。他说:"总体而言,尽管互联网已经存在了相当长的时间,但关于网络爬虫的良好判例法还有些缺乏,特别是在今天进行的方式方面。SerpApi的论证可能有助于法院开始处理其中的一些细微差别,但我不一定将其描述为轻松获胜。"
Q&A
Q1:SerpApi是什么公司?为什么被谷歌起诉?
A:SerpApi是一家网络爬虫公司,其API允许客户的爬虫模拟人类搜索行为。谷歌起诉该公司是因为声称其工具"绕过了安全措施",用于获取搜索结果来满足AI大语言模型对训练数据的需求,且往往没有得到网站所有者的许可。
Q2:SerpApi如何回应谷歌的法律诉讼?
A:SerpApi在加利福尼亚州法院提交了驳回动议进行反击,称谷歌试图"将《数字千年版权法》武器化"来阻止其他公司进行大规模网络爬虫。该公司声明表示"谷歌认为它拥有互联网",但"没有人拥有互联网,法律对此很明确"。
Q3:网络爬虫的法律地位目前是否明确?
A:法律地位并不明确。知识产权律师指出,虽然基本事实不受版权保护,但事实汇编可能在一定程度上受保护。关于谷歌是否对其搜索结果拥有版权仍是悬而未决的问题,而且关于现代网络爬虫方式的判例法还比较缺乏。