本文来自网易科技报道,作者/辰辰。
8月31日消息,随着人工智能技术的迅猛发展,曾经用于搜索引擎索引的网络爬虫现在被用于收集训练数据来开发人工智能模型。内容创作者意识到,他们的劳动成果被大科技公司免费使用来开发新的人工智能工具,爬虫协议已经无法解决这个问题。这可能会影响内容所有者在线分享内容的动力,从而从根本上改变互联网。
以下为翻译内容:
20世纪90年代末,出现了一种名为爬虫协议(robots.txt)的简单代码,允许网站所有者告知搜索引擎的机器人爬虫哪些页面可以抓取,哪些页面不能抓取。如今,爬虫协议已成为业界普遍接受的非官方网络规则之一。
机器人爬虫的主要目的是索引信息,改善搜索引擎的搜索结果。谷歌、必应和其他搜索引擎都有爬虫程序,它们生成网络内容的索引信息,并提供给潜在的数十亿用户。这也是互联网蓬勃发展的基础,创作者们在网络上分享丰富信息,因为他们知道用户会访问他们的网站并浏览广告、订阅服务或购买商品。
然而,生成式人工智能和大语言模型正在从根本上迅速改变网络爬虫的任务。这些工具并没有为内容创作者提供支持,反而成为他们的敌人。
机器人喂饱了大科技公司
现在,网络爬虫收集在线信息,并生成大规模的数据集,这些数据集被富有的科技公司免费用于开发人工智能模型。比如,CCBot为最大的人工智能数据集之一Common Crawl提供数据;GPTbot则是向人工智能明星创企OpenAI提供数据。谷歌将自家的大语言模型的训练数据称为“无限集合”,但没有提及大部分数据来自Common Crawl的精简版C4。
这些公司开发的人工智能模型使用这些免费信息来学习如何回答用户的问题,这与为网站建立索引信息、让用户访问原始内容的既定模式相去甚远。
如果没有潜在的消费者,内容创作者就没有动力让网络爬虫继续收集免费数据。GPTbot已被亚马逊、爱彼迎、Quora和其他上千家网站屏蔽。对Common Crawl数据集的CCBot的屏蔽也越来越多。
“粗糙的工具”
阻止这些网络爬虫的方式并没有太大变化。网站所有者只能部署爬虫协议并屏蔽特定爬虫,但效果并不理想。
“这是件有点粗糙的工具,”Wordpress前高管、科技投资者、数字营销公司Yoast创始人约斯特·德·瓦尔克(Joost de Valk)说。“它没有法律依据,基本上是由谷歌维护的,尽管他们声称是与其他搜索引擎共同维护的。”
考虑到各大企业对高质量人工智能数据的巨大需求,爬虫协议也容易被操纵。例如,像OpenAI这样的公司只需更改其网络爬虫的名称,就可以绕过人们使用爬虫协议设置的禁止规则。
此外,由于爬虫协议是自愿遵守的,网络爬虫也可以简单地忽略指令并继续收集信息。像Brave等较新的搜索引擎的网络爬虫就不会受到规则的影响。
“网上的一切信息都被模型吸进了真空,”研究人类生成数据与人工智能之间关系的计算机科学教授尼克·文森特(Nick Vincent)说。“这背后发生了很多事情。在接下来的时间里,我们希望能以不同的方式评估这些模型。
创作者的回应
德·瓦尔克警告称,内容所有者和创作者可能已经太迟钝,无法理解允许这些网络爬虫免费获取他们的数据、不加区分地使用这些数据来开发人工智能模型的风险。
“现在,什么都不做意味着,‘我认可我的内容出现在世界上所有的人工智能和大语言模型中,’”德·瓦尔克说。“这是完全错误的。需要创建更好的爬虫协议,但搜索引擎和大型人工智能团队自己很难会去做这件事。”
一些大公司和网站最近做出了回应,其中一些是第一次部署爬虫协议。
检测人工智能生成内容的公司Originality.ai表示,截至8月22日,在1000个最受用户欢迎的网站中有70个使用爬虫协议屏蔽GPTBot。
Originality.ai还发现,在1000个最受欢迎的网站中,有62个屏蔽了Common Crawl的网络爬虫CCBot。随着人们对人工智能数据收集的意识日益增强,今年有越来越多的网站开始屏蔽Common Crawl。
然而,网站不能强制执行爬虫协议。任何爬虫都可以忽略该文件,继续收集网页上的数据,而网页所有者可能根本不知情。即使部署爬虫协议具有法律依据,其初衷与利用网络信息开发人工智能模型关系不大。
纽约大学技术法律与政策诊所主任杰森·舒尔茨(Jason Schultz)表示,"Robots.txt不太可能被视为禁止使用网站数据的法律。"这主要是为了表明人们不希望自己的网站被搜索引擎编入索引,而不是表示人们不希望自己的内容被用于训练机器学习和人工智能。
“这是一个雷区”
事实上,这种情况已经持续了多年。早在2018年,OpenAI就公布了首个GPT模型,并通过BookCorpus数据集进行训练。Common Crawl始于2008年,并于2011年通过亚马逊云服务公开了数据集。
尽管如今屏蔽GPTBot的网站越来越多,但对于那些担心自己的数据被用于训练人工智能模型的企业来说,Common Crawl的威胁更大。可以说,Common Crawl之于人工智能,就像谷歌之于互联网搜索。
非营利组织知识共享(Creative Commons)首席执行官凯瑟琳·斯蒂勒(Catherine Stihler)表示,
“这是一个雷区。我们几年前才更新了战略,现在我们处于一个不同的世界。”
知识共享始于2001年,是创作者和内容所有者用知识共享许可协议来替代严格版权,在网上使用并分享作品许可的一种方式。在共享许可协议的基础上,创作者和所有者保留他们的权利,并允许其他人访问内容并创作衍生作品。维基百科、Flickr、Stack Overflow等许多知名网站都是通过知识共享许可协议运作的。
知识共享组织在最新的五年战略中表示,在训练人工智能技术方面,开放内容的使用存在问题。知识共享组织希望使在线作品共享更加公平。
1600亿网页
通过CCBot爬取公开信息的Common Crawl拥有最大的数据存储库。自2011年以来,它已从1600亿个网页中抓取和保存信息,并持续增加。一般来说,Common Crawl每月抓取并保存大约30亿个网页的信息。
Common Crawl称,这项事业是一个“开放数据”项目,旨在让任何人“打开自己的好奇心,分析世界,追求卓越的想法”。
然而,现在的情况完全不同。大量Common Crawl收集的数据被大科技公司用于开发专有模型。即使一家大型科技公司目前没有从人工智能产品中获利,未来也有可能这样做。
一些大型科技公司已停止披露训练数据来源。然而,许多强大的人工智能模型都是使用Common Crawl开发的。它帮助谷歌开发了Bard,帮助Meta训练Llama,帮助OpenAI创建ChatGPT。
Common Crawl还向The Pile提供数据,后者还拥有更多从其他爬虫抓取的数据集。The Pile已广泛用于人工智能项目,包括Llama和微软与英伟达共同开发的MT-NLG。
从今年6月份开始,The Pile下载量最大的数据之一是受版权保护的漫画书,包括阿奇漫画、蝙蝠侠、X战警、星球大战和超人系列的作品。这些作品都是DC漫画和漫威创作的,现在仍受版权保护。最近有报道称,The Pile中还存储了大量受版权保护的书籍。
纽约大学的舒尔茨表示,爬虫的目的和使用方式完全不同。很难监管或要求它们以特定方式使用数据。
对于The Pile来说,虽然它承认数据中包含受版权保护的材料,但在创立数据集的技术文章中声称,“处理和分发他人拥有的数据也可能违反版权法”的说法几乎没有人会认同。
此外,The Pile还辩称,尽管数据集中存储了相对未经改变的作品,但根据合理使用原则,对这些材料的使用应该是变革性的。The Pile还承认,在训练大语言模型时,需要使用完整的版权内容以产生最佳效果。
网络爬虫和人工智能项目中所谓的合理使用观点已经受到了质疑。作家、视觉艺术家甚至源代码开发人员起诉OpenAI、微软和Meta等公司,因为他们的原创作品在未经许可的情况下被用于训练模型,而他们并没有从中受益。
微软前高管、风投公司安德森·霍洛维茨(Andreessen Horowitz)合伙人史蒂文·辛诺夫斯基(Steven Sinofsky)最近在社交媒体上写道,即便将东西放到互联网上,也不能不经同意就免费、无限制地将某人的劳动成果用于商业用途。
没有解决办法
“我们现在正在努力解决所有这些问题,”知识共享组织首席执行官斯蒂勒表示,有很多问题需要解决:补偿、授权、信任。在人工智能时代,我们还没有答案。
德·瓦尔克表示,由于知识共享许可协议可以促进版权的流通性、允许自己拥有的作品在互联网上使用,可以作为开发人工智能模型的一种潜在许可模式。
斯蒂勒对此并不确定。她说,涉及到人工智能时,也许并没有单一的解决方案。即使是更灵活的通用协议,也可能行不通。你如何向整个互联网授权?
斯蒂勒说:“与我交谈过的每一位律师都说,许可并不能解决问题。”
她经常与作者、人工智能行业高管等利益相关者讨论这个问题。斯蒂勒今年早些时候会见了OpenAI的代表,并表示公司正在讨论如何奖励创作者。
但她补充说,目前还不清楚人工智能时代的公共空间将会是什么样子。
鉴于网络爬虫已经为大型科技公司收集了大量数据,加上内容创作者根本无法掌控,互联网可能会发生巨大变化。
如果发布信息意味着将数据免费提供给与自己竞争的人工智能模型,那么这种活动可能会停止。
已经有迹象表明,访问问答网站Stack Overflow来回答问题的程序员越来越少,因为他们之前的付出被用来训练人工智能模型,现在这些模型可以自动回答许多问题。
斯蒂勒表示,所有在线创作内容的未来可能很快就会像现在的流媒体一样,内容被锁在订阅服务中,成本越来越高。
“如果我们不小心,最终就会导致公共空间关闭,”斯蒂勒说。“将会有更多有围墙的花园、更多人们无法访问的东西。这不是未来知识和创造力的成功模式。”(辰辰)