AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光

山卡拉
开发人员的失误在于将这些密钥硬编码到 HTML 表单和 JavaScript 片段中,而未使用服务器端环境变量,这使得攻击者有可能利用这些密钥开展恶意活动,如进行网络钓鱼、品牌冒充,进而导致数据泄露。

本文来自微信公众号“嘶吼专业版”,【作者】山卡拉。

Common Crawl非营利组织维护着一个庞大的开源存储库,其中存储了自2008年以来收集的数PB级网络数据,任何人都能免费使用这些数据。由于数据集规模巨大,许多人工智能项目,包括OpenAI、DeepSeek、Google、Meta、Anthropic和Stability等公司的大型语言模型(LLM)训练,可能至少部分依赖这一数字档案。

Truffle Security公司(TruffleHog敏感数据开源扫描器背后的公司)的研究人员对Common Crawl 2024年12月档案中267亿个网页的400 TB数据进行检查后,发现了11,908个成功验证的有效机密。这些机密均为开发人员硬编码,这意味着LLM存在在不安全代码上进行训练的可能性。

在这些机密中,有Amazon Web Services(AWS)的根密钥、MailChimp API密钥以及WalkScore服务的有效API密钥等。

微信图片_20250306141057.png

源代码中的AWS根密钥:Truffle Security

TruffleHog在Common Crawl数据集中总共识别出219种不同类型的秘密,其中最常见的是MailChimp API密钥,近1,500个独特的Mailchimp API密钥被硬编码在前端HTML和JavaScript中。

微信图片_20250306141102.png

MailChimp API密钥在前端HTML源代码中泄露:Truffle Security

开发人员的失误在于将这些密钥硬编码到HTML表单和JavaScript片段中,而未使用服务器端环境变量,这使得攻击者有可能利用这些密钥开展恶意活动,如进行网络钓鱼、品牌冒充,进而导致数据泄露。

此外,研究人员还发现报告中的机密存在高重复使用率,63%的机密出现在多个页面上。例如,一个WalkScore API密钥在1,871个子域中出现了57,029次。研究人员还在一个网页上发现了17个独特的实时Slack webhook,而Slack明确警告webhook URL包含秘密,严禁在网上(包括通过公共版本控制存储库)分享。

尽管LLM训练数据会经过预处理阶段,旨在清理和过滤掉不相关数据、重复内容、有害或敏感信息,但机密数据仍然难以彻底删除,且无法保证完全清除如此庞大数据集中的所有个人身份信息(PII)、财务数据、医疗记录和其他敏感内容。

研究结束后,Truffle Security联系了受影响的供应商,并协助他们撤销了用户的密钥,成功帮助这些组织集体轮换/撤销了数千个密钥。即便人工智能模型使用的是比研究人员扫描的数据集更旧的档案,Truffle Security的发现仍给我们敲响了警钟,不安全的编码实践可能会对LLM的行为产生影响。

参考及来源:https://www.bleepingcomputer.com/news/security/nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset/

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论