本文来自微信公众号“数据猿”,作者/余小鱼。
继ChatGPT以来,大模型在国内掀起了一股热潮,大有百模征战之意。而其中数据、算法、算力作为大模型训练的三驾马车,预训练数据的数量、质量、多样性成为大模型能力表现的关键性因素,数据对于人工智能领域的重要性值得我们重新审视。
然而,在追求技术创新的同时,确保数据的合法性、隐私保护和伦理问题的考量也应当得到足够的重视。从目前AI大模型的发展来看,数据集的争议在近年来变得越发常见。由于大规模训练数据集对于训练强大的AI模型至关重要,数据集的来源和使用问题引发了一系列的法律和伦理争议。随着AI技术的快速发展和广泛应用,确保数据的合法和透明使用变得尤为重要。
那么,数据作为大模型训练的基础,应该如何保障数据安全呢?针对大模型训练,“量”为主还是“质”为主呢?针对目前大模型训练过程中的数据问题,又有什么解决办法?
数据成为大模型研发卡脖子问题
数据集质量是大模型研发中的关键,只有通过高质量、多样性的数据集,才能让大模型展现出真正的智能和创造力。然而,在大模型研发过程中,使用的数据却成为了其成长之路上的重要阻碍。在国外,因大模型研发而造成的数据纠纷早已出现。
一群匿名人士在一项集体诉讼中声称,ChatGPT的开发商OpenAI公司正在窃取大量个人信息,以训练其人工智能模型不顾一切地追逐利润。这些匿名人士指责OpenAI从互联网上秘密抓取3000亿字,窃听了“书籍、文章、网站和帖子,包括未经同意获得的个人信息”,违反了隐私法。
除此之外,国内也出现了大模型相关的数据纠纷,其中笔神作文对学而思大模型的指控更是再次让大家关注到了数据对大模型的重要性。笔神作文表示,学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次,严重侵犯了笔神作文APP的数据权益。这一行为不仅违反了双方的合同条款,也违反了《数据安全法》相关规定,严重侵犯了笔神作文APP的数据权益。
对此,学而思官方微博发文回应称:“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文AI助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”
此外,推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费,且价格不菲。此前,这些平台的内容可以被谷歌、OpenAI等公司免费爬取,用作大语言模型的训练库。推特CEO马斯克曾表示,“他们(微软)非法利用推特的数据来训练,是时候起诉他们了。”
随后,三星也关注到了这一现象,并推出了一项新政策,要求员工不得在工作场所使用OpenAI的ChatGPT和谷歌Bard等生成式人工智能。据三星称,4月时一名工程师将内部源代码上传到ChatGPT后,意外泄漏了内部源代码。这让三星担忧其数据将通过人工智能平台最终落入其他用户手中。因此,三星员工被禁止在公司设备上使用人工智能工具,包括电脑、平板电脑、手机等。但员工仍可以在个人设备上使用人工智能工具,不过仅限于与工作无关的事情。
数据是否已成为大模型训练的卡脖子呢?为此,数据猿就相关问题与业界专家进行了沟通。
天云数据CEO雷涛表示:这个问题我们要反思到根本:做大模型还是喂大模型?目前,大模型能够提炼的语料是开放的、共享的和免费的。根据凤凰网周刊,ChatGPT中文资料为0.09905%,比重还不足千分之一。如果说蒸汽机是对动力的封装和移动,电是对能源的封装和移动,那么人工智能将是对知识的封装和移动。大模型的知识会成为以后的基础设施,到那个时候其“布道”的到底是“圣经”还是“诸子百家”,内核差异巨大。所以填充大模型语料才是根本的卡脖子问题。《1984》里有一句话:“谁控制了过去,谁就控制了未来;谁控制了现在,谁就控制了过去。”这句话应用在大模型数据上完全切合。
华院计算技术总监杨小东博士认为,目前大模型卡脖子问题主要集中于两方面:
首先,对于具体行业内公司及解决方案供应商来讲,高质量的行业数据确实是一个主要的卡脖子的点。这里二八法则同样适用,也就是说大模型最终效果如何,80%是由数据决定的。通过高质量数据对模型进行低成本微调(PEFT),或者结合Langchain,可以做出各方面体验还不错的行业大模型。但如果数据方面比较薄弱,那就只能基于基底模型本身的能力,做些通用的,不痛不养的场景。
其次,从大模型的技术方面来看,为持续提升提升模型性能以及加快工程化落地,预训练模型本身的网络结构创新、Transformer以及Attention的优化、通信库nccl的优化等技术也是至关重要的,需要在底层基础能力研究上进行投入,摆脱基础研究方面跟随者的地位。
丰富、多样的数据可以帮助模型更好地理解语言结构、语义关系和上下文信息。然而,构建高质量的数据集并非易事。
数据是大模型训练的基石
在人工智能领域的百模大战中,大型语言模型的训练成为了一个关键的竞争领域。数据、算法和算力作为大模型训练的三驾马车,在这场竞争中发挥着至关重要的作用。其中,数据集作为大模型训练的基石,对于模型性能和创新能力具有关键影响,尤其是数据质量问题更是不可忽视。
目前,大模型的数据一般来自于多个来源,包括以下几种:
其一,公开数据集。许多领域都有公开的数据集,例如ImageNet、MNIST等图像数据集,Wikipedia等文本数据集。这些数据集由研究机构、学者或者公司开放,并且是在特定领域内广泛使用和共享的。公开数据集是大部分通用大模型的数据集的主要来源。
其二,合作数据分享。许多公司、机构和学者拥有独特的数据资源,并愿意与其它人合作共享这些数据资源,以支持不同领域的研究和应用。例如,很多医疗机构会收集大量的医疗影像数据,这些数据可以用于训练图像分析或者肺癌检测等任务。这也正是笔神作文所遇到的事情,双方虽为合作对象,但在数据引用上出现了分歧。
其三,大规模的网络数据。当我们使用大型互联网公司的产品和服务时,公司通常会收集并存储我们的数据,包括搜索历史、浏览器记录、GPS位置、社交网络等。这些数据可以用来训练大型的语言模型,自然语言处理模型等。国内大模型的数据来源和自身优势业务有较强相关性,百度作为国内搜索引擎的龙头企业,其大模型产品文心一言的数据集来源便主要是网络文本、书籍、新闻、社交媒体内容、科技论文、语音转录等,这也是其模型训练的优势之一。
其四,数据众包。众包是一种通过向大量的用户或者工人收集数据来解决问题的方法。通过这种方法,可以快速搜集大规模的数据集,例如图像标注、音频翻译等任务。这些数据集可以用于训练视觉和语音模型等。
OpenAI此前披露,为了AI像人类那样流畅交谈,研发人员给GPT-3.5提供多达45TB的文本语料,相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中。
近期,国内AI准独角兽企业实在智能的自研垂直领域大语言模型——TARS(塔斯)历经半年研发后,正式开启内测!对于其目前训练大模型使用的数据集,实在智能创始人、CEO孙林君表示,目前的数据来源是多方面的,主要包含公开的数据集、经典的书籍、文档、知识内容、百科、开源的数据集,以及自身业务沉淀的数据,如果是垂直大模型合作企业会提供相关的数据集。占的比例来说并不固定,但是肯定是公开的数据的量最多,训练数据的接入还主要是通过建立数据库的方式。
近期发布多款AIGC产品的HCR慧辰股份CTO、首席数据科学家马亮博士表示:我们做的是行业的专业数据分析服务,所以我们训练聚焦于构造行业性AIGC分析模型,对具体行业的业务智能生成的能力有较高水平要求。因此训练数据中来源外部的数据很少,主要是来自公司长期各行业服务的领域数据积累,大都是基于专家生成的业务数据资源(包括大量的行业公开数据、专业问卷模板、项目建议书模板、业务分析报告模板等)。目前尚未接入合作企业的相关数据。
LF AI&DATA基金会董事主席堵俊平曾公开表示:“AI大模型就像一个贪吃的‘怪兽’,始终需要研究人员投喂更多的、质量更好的数据。”他说,当前数据几乎都是从“在网络上主动收集”“从第三方购买”“利用公开数据集”这三个渠道得来。在堵俊平看来,从第一个渠道得到的数据局限性较强,由于版权问题,很多公司只能从其私域获得数据;从第二个渠道获取的数据面临数据定价、数据质量等问题;而从第三个渠道获取的数据往往只能作为研究使用,在商用或者其他方面有很多限制。
而行业数据更是非常核心的私域数据,私域数据量越大,质量越高,就越有价值。
就拿本次事件中学而思所训练的垂直行业大模型来看,一个教育公司拥有大量教育资料数据,那么它就能开发出教育垂直大模型类的产品。同理,建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等,都是赋能垂直大模型的关键。
但是这些私域数据都攥在企业自己手中或者合作伙伴的手中,而且为了数据安全和合规,绝大部分机构是要本地化部署才会尝试大模型训练,很难想象企业会把自己的核心数据拿给别人去训练。
从“量”到“质”的升级
如果说前期大家专注的大模型训练的以“量”为主,到目前,随着训练的进一步提升,在大模型的数据训练上,“质”将成为之后的必选之路。
因此,如何合理地给数据打上分级标签、做好标注也非常重要。数据分级分类能够帮助产品提效,而高精度的标注数据能够进一步提升大模型的专业表现。但现阶段垂直行业想要获取高精度标注数据的成本较高,而在公开数据库中,行业专业数据也较少,因此对垂直大模型的建构提出了很高的要求。
针对目前大模型数据集质量,商汤科技大装置研究总监何聪辉则表示,大型语言模型对预训练数据质量有很高的要求,这主要体现在流畅性、干净性、知识密集性、安全性。训练数据需要包含大量的正确语法和语义,以使模型能够理解并生成符合语言规则的文本。流畅性直接影响到模型生成的文本是否通顺、易读。干净性是指预训练数据应该是干净、准确的,不包含错误、噪声或不一致的信息。模型在训练过程中会学习到数据中的模式和特征,如果数据质量不高,可能会导致模型生成的文本出现错误、不准确的情况。安全性也是非常重要的一点。语言模型应该遵守一定的道德和法律规范,不生成有害、冒犯性或不当的内容。预训练数据需要经过筛选和审核,排除不适宜的内容,以保证模型生成的文本符合社会价值观和伦理标准。
实在智能创始人、CEO孙林君则表示,大模型训练对数据质量的要求还是比较高的,模型训练和模型微调以及回报模型的训练上都要求比较高质量的数据集,多轮交互的数据,生成结果排序的数据质量都会对模型效果有很大影响。对于质量低的公开数据集要么清洗,要么弃用。同时数据的分布和密度也是决定模型好坏的重要因素,是数据质量的一部分。
GPT对数据质量要求高,而行业AIGC对代表行业理解的数据质量要求更高,这主要体现在两点:高度贴合行业,蕴含业务的专业深度认知。我们现在训练的数据,即使是专业领域积累的数据,训练前也发现有很多问题,不仅包括常规清洗的问题,更多是行业深度的业务认知方面的问题构造与表达,还有许多要调整的。同一批原始语料,经过不同的清洗和优化方式,在训练后,模型的业务分析效果就是有差异的。HCR慧辰股份CTO马亮博士如是说。
大型语言模型是具有数十亿到数万亿参数的深度神经网络,被“预训练”于数TB的巨大自然语言语料库上,包括结构化数据、在线图书和其他内容。ChatGPT比较大的突破是在GPT-3出现时,大概1750亿参数量,数据量为45个TB。
出门问问副总裁李维认为:数据是大模型的燃料,数据的质量很大程度上决定了模型的质量。我们的数据加强工作主要分两大块,预训练和后续的对齐训练(SFT,RLHF),前者求量,后者重质。预训练的数据,原则上是在保持多样化和干净的前提下多多益善。后期训练的对齐数据,尤其是SFT数据,不求量大,只求质量高,要反映对齐工作的多样性以及成比例。文献显示,有些高品质多样性的小数据,也可以在对齐工作中表现良好。当然,在实际工程实现中,不宜一味追求SFT对齐的小数据(例如1000条-1万条),过分臃肿的SFT数据(例如千万或以上)并不一定出好模型。这方面的常规数据加强和对齐训练工作,要从流程化做到快速迭代,大模型的质量提升才能见效。
共建共享能否解决大模型训练的数据集问题?
大模型的开发离不开海量数据助力。当前,数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵。综合上述的学而思和ChatGPT事件来看,主要是涉及AI大模型的“数据盗取”行为,有哪些因素可以判断数据被盗取呢?
AI数据抓取案件与近年来司法判决的典型数据抓取案件在本质上没有差别。对于这些案件,需要评判数据抓取行为是否对数据持有者的商业利益和市场竞争优势造成了损害,是否未经许可使用他人劳动成果,是否违反了商业道德,并且需要考虑抓取数据的合理性和合法性。
利用抓取技术破坏他人市场竞争优势,具有并存在为自己谋取竞争优势的主观故意,违反诚实信用原则,扰乱竞争秩序的数据抓取行为,可能构成不正当竞争行为。同时也直接违反了《数据安全法》相关规定。
尤其是针对合作方的数据,如果在合作协议中存在违约责任条款,应根据该条款处理。如果合作协议未涉及该情况,则被视为侵权行为,相应的侵权责任将予以承担,包括但不限于赔礼道歉、停止侵权行为、赔偿损失等。
数据和隐私的平衡是大模型应用面临的一个重要问题。如何在保证数据安全的前提下,保护用户的隐私,是大模型应用需要解决的一个重要问题。目前,隐私计算技术和产业已经成为了平衡数据流通与隐私安全的关键技术路径。
面对这些挑战,应该如何解决数据集卡脖子问题?
一、国家及社会层面。
首先是可以通过立法来保证数据安全。目前日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况。
6月14日,欧洲议会投票通过关于《人工智能法案》的谈判授权草案,意味着该法案将进入欧盟启动监管前的最后阶段。该法案要求OpenAI、谷歌和微软等基础模型的供应商需要公开,他们在训练模型过程中,是否使用了受版权保护的数据。
此前,国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》也明确,用于生成式人工智能产品的预训练、优化训练数据,应符合网安法等法律法规的要求,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”原则等要求,还应保证数据的真实性、准确性、客观性、多样性。
对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示,《生成式人工智能服务管理办法(征求意见稿)》已对AI训练数据集的合规要求搭建了清晰的框架,在运用著作权和知识产权方式之外,还可以探索使用多种法律手段去实现。
张欣分析,监管的落地,还存在事后难追溯等问题,尤其在算法复杂度日益攀升、出现“算法黑箱”等情况下,如果从事后去还原和追溯数据集是否合规,十分依赖大模型开发商提供数据处理记录和日志,很难从外部进行确认。此外,从技术上来说大模型很难精确删除某个用户的个人信息,这就限制了个人信息保护中“删除权”的行使。
其次,通过数据集的共建、共享,来让大模型企业拥有更加丰富的数据集。
研究机构和开发者们开始意识到合作与共享的重要性。建立数据集共享平台和合作网络,可以促进数据资源的共享和互补,从而减轻单个团队的数据采集和标注负担。
通过共享数据集,可以获得来自不同来源和领域的数据,增加数据的多样性。这有助于训练更具广泛应用能力的大模型,适应不同场景和任务的需求。各方共享数据集,可以充分利用各自的数据资源,避免重复劳动和浪费,提高数据利用效率。共建共享模式可以将各方的专长和资源进行有效整合,实现合作共赢。在共建共享模式下,数据采集和使用的风险可以得到分担。各方可以共同制定数据使用准则和合作协议,明确数据的权益和责任,减少法律和伦理风险。
杨小东博士表示,共享共建数据机制能够对大模型的研究与落地提供持续助力。当然首先需要平衡好各方的利益,通过行政以及技术等多方面的手段,保障数据的质与量,从而实现真正的价值,形成良性的发展生态。
然而,共建共享模式也面临一些挑战和限制:首先,在共建共享模式下,数据的隐私和保护是一个重要的问题。合作方需要确保数据的安全性,制定隐私保护措施,并遵守相关的法律法规,保护数据所有者的权益;多方参与的共建共享模式需要良好的合作协调机制。合作方需要就数据采集、标注、使用等方面进行有效的沟通和协作,确保数据集的一致性和质量。最后,在共建共享模式中,涉及到数据的权益和利益分配问题。各方需要协商和达成共识,制定公平合理的利益分享机制,以确保各方的权益得到尊重和保护。
二、对于大模型研发企业。
对于大模型研发企业来说,解决数据纠纷问题是至关重要的。首先应该确保在数据采集、使用和存储过程中遵守相关的法律法规,包括数据保护和隐私权规定。制定明确的政策和流程,确保数据的合规性和合法性。
其次,与数据提供方、合作伙伴或客户之间建立清晰的合同和协议,明确数据的权益、使用范围和限制条件。确保双方对数据的使用和共享有明确的约定,并明确各方的责任和义务。
当然,在数据采集和使用过程中,进行数据审查和验证,确保数据的来源和合法性。验证数据的准确性、完整性和权威性,并与数据提供方进行沟通和确认。
而且,应当采取适当的数据安全措施,包括数据加密、访问控制、数据备份和灾难恢复计划等,以防止数据被盗取、篡改或泄露。确保数据的机密性和完整性得到保护。
同时,建议大模型研发企业寻求专业的法律支持,特别是在处理数据纠纷或争议时。法律专业人士能够提供有针对性的法律建议和指导,确保企业在法律框架内解决数据纠纷问题。
遵循诚信和商业道德,在数据采集和使用过程中,秉持诚信和商业道德原则。遵循公平竞争和互惠原则,尊重数据所有者的权益,避免未经授权或恶意使用他人的数据。
大模型研发企业应该重视数据纠纷问题,并采取相应的措施来解决和防范这些问题。合规和合法性、合同和协议、数据审查和验证、数据安全措施、法律支持、培训和教育以及诚信和商业道德都是关键的方面,需要在企业的数据管理和运营中得到有效的应用和实施。
三、对于合作方或用户。
数据安全已经是老生常谈的一件事了。对于大模型合作方,或者使用的用户来说,又应该如何保护自身的数据安全不受侵犯呢?
首先是仔细阅读和审查合同,在与大模型研发企业进行合作之前,仔细阅读并审查合同条款,特别是关于数据使用和保护的部分。确保合同中包含明确的数据安全条款,涵盖数据的保密性、安全性和合规性。
其次,应该限制数据提供范围,在合作过程中,明确规定数据提供的范围和目的,只提供必要的数据,并限制敏感信息的披露。确保只有合理需要的数据被使用,减少数据泄露和滥用的风险。在共享数据时,采取措施保护数据的隐私和匿名性。可以使用数据脱敏技术、数据加密和数据匿名化方法,以减少数据被识别和关联的可能性。制定内部风险管理机制,包括监测和应对数据泄露、未经授权访问等安全事件的计划和流程。建立及时响应和处置数据安全问题的能力。
当然,也需要实时监控数据使用情况,对于共享的数据,建议保持对数据的监控和跟踪。确保数据的使用符合合同和约定,并监测是否存在异常活动或未经授权的数据访问。要求合作方或大模型研发企业采取适当的数据安全措施,如数据加密、访问控制、漏洞修复等,以确保数据的安全性和保密性。
最重要的是选择可信赖的合作伙伴,在选择合作伙伴时,仔细评估其数据安全和隐私保护能力。选择具备良好信誉和可信度的企业,了解其数据安全措施和合规性。
总之,无论是作为大模型研发企业还是合作方或用户,保护数据安全至关重要。数据集作为大模型研发中的关键环节,需要综合技术、合作伙伴和道德准则的支持。解决数据集卡脖子问题,才能推动大模型的进一步发展,为人工智能领域带来更多的创新和应用。
文:余小鱼/数据猿