本文来自网易科技报道,作者/辰辰。
谷歌更新后的隐私政策表明,诸如Bard和Cloud AI等各种人工智能服务可能是用谷歌从网上抓取公共数据进行训练的。
本周一,谷歌更新了隐私政策。其中提到Bard、Cloud AI以及谷歌翻译等人工智能服务可能使用了收集到的公共数据。
谷歌发言人克里斯塔·马尔登(Christa Muldoon)表示,“我们的隐私政策一直是透明的,谷歌使用来自开放网络的公开信息来训练语言模型,从而提供谷歌翻译等服务。”“最近一次更新只是说明像Bard这样的新服务也在内。我们将隐私原则和保障措施纳入人工智能技术的开发中,这与我们的人工智能原则是一致的。”
在2023年7月1日进行更新后,谷歌隐私政策显示,“谷歌使用信息来改进服务,开发有利于用户和公众的新产品、功能和技术”,公司可能“使用公开可用的信息来帮助训练谷歌人工智能模型,开发诸如谷歌翻译、Bard以及Cloud AI等产品和功能。”
从谷歌隐私政策的历次更新中可以看出,关于使用收集的公开数据训练哪些服务,这次谷歌的说法更为明确。例如,谷歌的隐私政策现在显示,这些信息可能用于“人工智能模型”,而不只是“语言模型”,这让谷歌在用公共数据训练和开发大语言模型以外的其他系统方面有了更大自由度。但这条注释被藏在隐私政策中“你的本地信息”标签“公共可访问资源”的嵌入式链接之下,用户必须点击这个链接才能看到相关内容。
更新后的隐私政策说明,“公开信息”将用于训练谷歌的人工智能产品,但没有说明谷歌是否或者如何阻止受版权保护的内容进入训练数据库。许多可公开访问的网站都有相关政策,禁止为了训练大语言模型和其他人工智能工具集开展的数据收集或网络抓取行为。因为《通用数据保护条例》(GDPR)等法规保护用户数据不会在未经明确许可的情况下被滥用。
这些法规加上日益激烈的市场竞争,使得GPT-4等主流生成式人工智能系统的开发商对他们从哪里获得用于训练模型的数据,以及这些数据是否包括社交媒体内容或艺术家作家的版权作品,都非常谨慎。
但合理使用数据的原则是否可以延伸到这类人工智能应用,目前还处于法律监管的灰色地带。这种不确定性引发了各种诉讼,并促使一些国家出台更严格的法律,更好地规范人工智能公司收集和使用训练数据的方式。这种不确定性也带来了各种问题,比如到底该如何处理这些数据、确保不会导致人工智能系统出现高危故障;还有负责整理这些海量数据的人通常要忍受长时间的极端工作条件。
美国最大报纸出版商Gannett正在起诉谷歌及其母公司Alphabet,声称人工智能技术的进步让这家搜索行业巨头进一步垄断了数字广告市场。谷歌测试版人工智能搜索等产品也被指是“抄袭引擎”,并因导致其他网站流量枯竭而受到批评。
与此同时,包含大量公共信息的社交媒体平台推特和Reddit最近都采取了严厉措施,试图阻止其他公司自由获取他们平台上的数据。但平台调整和限制API现行机制的做法也遭到了各自用户社区的强烈反对,因为这种出于反对网络抓取数据的调整措施对核心用户体验产生了负面影响。(辰辰)