本文来自微信公众号“阿里研究院”,作者/王峥、傅宏宇、袁媛。
导语:
在移动互联网时代,“数据飞轮”效应深入人心:场景催生应用,应用生成数据,继而这些数据反馈优化算法,再反哺应用本身,进入迭代优化的良性循环。随着生成式人工智能的兴起,许多人认为这一飞轮效应将延续,中国凭借其丰富的应用场景,能够生成大量的数据,进而为模型提供养分,这也被视为中美人工智能竞争中关键的比较优势,推动模型应用的发展显得尤为重要。然而,要回应这些社会关注的问题,我们必须从大模型训练对数据利用的新方式着手,逐类分析应用产生的数据对模型训练的贡献,对比与传统推荐系统的异同,才能确认“数据飞轮”是否依然存在,本文旨在为大模型时代的数据利用和应用发展提供翔实的佐证和清晰的建议。
一、决策式人工智能时代的数据飞轮
提起数据飞轮,人们的第一印象是以搜推系统为代表的决策式人工智能。神经网络技术推动了数据驱动的应用模式,依靠丰富的场景和海量数据积累,以实现个性化和实时性的迭代,让用户有越用越好的体验。推荐系统在需求侧可以通过获取、学习和分析海量的用户行为数据,判断用户的需求,实现对用户的认知和洞察。用户使用越多,用户行为数据越丰富(包含用户的实时性操作,如浏览、点击等),将这些作为特征输入到模型中,系统对用户个性化、实时性的偏好判断就越精准。其背后的技术原理,是以大量的用户使用记录、用户画像、商品画像等原始数据为基础,提炼出用户和商品标签等不同维度的信息,进而抽象出特征向量,用向量的空间距离计算出用户和商品的相似度、对内容的偏好度,进行“人-商品/内容”的匹配推荐。基于上述方式,搜推系统呈现出明显的规模效应和自驱效应:越丰富和细致的用户使用数据,就能实现越有效的供需匹配,而且得到数据反馈的算法会越用越准,并不需要人类去干预。
由此,应用数据飞轮的特征可归纳为三条:自我驱动、个性化、实时性。首先,自我驱动体现在随着应用数据的积累,系统可以通过用户的反馈不断学习和优化,形成“应用数据→优化效果→反哺应用”的闭环。其次,个性化体现在系统通过积累与特定用户交互的经验,更有效构建用户间的相似性关系,挖掘每个用户潜在感兴趣的对象,提供越来越精准的个性化服务。再次,实时性体现在对用户的应用数据的实时采集和处理,将这些实时特征转化为输入,系统可以实现动态调整和优化。
二、生成式人工智能对数据利用的新模式
1、大模型应用数据的提出
我国在大模型训练中,经常面临高质量训练数据供给不足的问题。对此,我们讨论过公共数据“应开尽开”、社会力量“应试尽试”、版权数据“合理使用”,以及合成数据“应补尽补”,作为训练数据供给不足的新方案。
今天将讨论另一种数据类型:大模型应用数据,即用户在使用大模型过程中产生的数据。根据现阶段的发展情况,可以将应用数据分为对话类和行为类两种。对话类数据常见于以智能客服为例的企业通用场景,包含用户在应用大模型产品中产生的输入信息、与模型对话交互的记录等。而行为类数据包含人类对模型回答的反馈(点赞或点踩)、点击、浏览、操作记录等。与公众的直觉判断相反,应用数据并不能作为训练语料的直接和主要来源,我们期待的数据飞轮在大模型时代并不存在,而以发展应用来提升模型能力也需要更细致的方案。
2、应用数据与模型能力的关系
○2.1大模型训练所需的语料类型
大模型能力的提升来自于训练阶段的优化,所需的数据根据训练阶段有所不同,其特点可以归纳为“广”、“齐”、“专”。在预训练阶段需要各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,目的是为了“融汇贯通”以掌握世界规律,提升模型基础能力。在对齐阶段通过给予大模型有针对性的问答对(典型例题-答案对),以及对模型回答进行打分排序,更好激发模型在相应任务中的能力,让模型知道“怎么说更好”。如果将模型部署于特定场景形成行业大模型,则需要满足行业专业度需求的语料,一方面可应用于预训练以使模型掌握领域知识,另一方面作为对齐阶段的行业语料可以更好激发专业领域的能力(推荐阅读1)。
从规律的学习方式看,大模型对训练数据的需求类型和使用方式都产生了根本性变化,属于一种创造知识增量的创新使用方式。决策式人工智能的训练数据属于原始数据(Data),是对事物、事件、活动的基本描述和记录(比如用户行为数据),其数量级别十分庞大但价值无法确定。而生成式人工智能的训练语料属于知识类(Knowledge),是人类通过对原始数据进行格式化组织分析形成信息,进而从信息中获得见解所形成的内容。大模型训练需要知识类语料,并不依赖用户行为数据,可见在生成式人工智能时代,模型对数据的利用变得更有效率。以工业制造为例,工艺生产中的操作行为或时序数据等非自然语言描述的内容属于原始数据,通常不能直接用于训练。而将其转化为一条条可读的操作记录等结构化信息,并将多条结构化信息与行业的知识图谱、专家经验相结合,产出成有价值的行业知识(如在什么温度下应该如何操作,好处是什么),才可以用于大模型训练(推荐阅读2)。当然,模型训练所需的语料类型也可能随着技术发展而不断演变。
○2.2应用数据的提炼与转化
对话类的应用数据需要人类加工处理后才能用于模型训练。大量用户与模型多轮交互问答并不会直接让模型能力得到提升,而需要人类将其中的内容整合并提炼共性,才能形成高质量的可用于持续训练的问答对。行为类的应用数据也不能直接用于模型训练,相反,训练并不依赖大量的行为数据。从ToB端基于模型开发的行业应用看,在通用场景中,大量用户对智能客服回答的点赞和点踩,需要人类的统计和汇总才可能转化为适宜强化学习的排序语料。在专业闭环场景中,用户驾驶装载了完全自动驾驶(FSD)模型的Tesla在道路上行驶,大量的操作记录等行为数据并不会使FSD版本自我迭代和优化,还需要技术人员通过对数据的收集和清洗,提炼出人类驾驶员应对稀有事件(如复杂路况、极端天气、异常行为的人或车辆等)的数据集用于持续训练,才能让模型性能更强大。从ToC端的应用看,以大模型时代的搜推场景为例,在需求侧已经不再需要数亿的海量点击和浏览等用户行为数据作为训练,而仅仅需要从中找出几百或几千条消费者具有“发现性”的点击(比如一个经常浏览或购买女装、童鞋品类下商品的消费者,首次对儿童玩具类商品的点击),将这些加工成知识性的微调语料,用于优化出更“好逛”的推荐系统。由此看出,即使问答对话是大语言模型所需的一种训练数据,但对话类应用数据,仍要人类提炼后才可能对训练有帮助。而行为类数据本身和大模型训练的基础需求并不匹配,对行为类应用数据的利用,要人类精选出和模型任务相匹配的少部分进行加工处理后,才可能对能力提升有帮助。从目前发展阶段看,将应用数据提炼转化后用于提升模型性能,在产业中还处于各自探索的阶段,即使如OpenAI等头部公司也并没有完美的成功经验可供借鉴。
○2.3大模型时代并不存在数据飞轮
大模型时代应用数据与模型能力之间并没有自我驱动、个性化、实时性的关系,因此在大模型时代“应用发展→数据积累→模型能力提升”的飞轮并不存在。一是应用数据对应模型能力提升并不存在“自我驱动”,而是非常依赖人类的干预,对用户使用数据进行加工提炼,使其在知识层有边际贡献,而这种贡献也还需要在产业实践中积极尝试。二是应用数据对模型能力提升并不是个性化的,大模型对于应用数据的使用方式并不是直接利用使用者的明细数据或个性化数据,而是需要将语料再提炼成“集合”的特征,才可供模型读取和训练。比如利用人工进行打标和分组归类,又或是利用合成数据,结合知识图谱、专家经验将明细数据转化成知识。三是没有实时性的特点,通常是在积累一段时间与用户的交互后,才能将应用数据加工成作为可供持续训练的语料,对于模型参数的调整并不是实时的。
3、理性看待应用发展与模型能力提升的关系
虽然大模型时代并不存在应用数据带来的飞轮效应,是否意味着不需要发展模型应用了呢?答案是否定的。通过应用发展带来更可持续的盈利模式,让大模型研发企业积累资金,投入新一轮基础模型的迭代,这种商业逻辑依然成立,且对于我国大模型发展十分重要。因此,大力发展应用,并不是为了积累大量的数据用于提升模型能力,而是为了建立更健康、更可持续的商业生态。
最后,对于“模型能力提升→应用发展”,该正向反馈是成立的。目前看,随着通用基础大模型能力的提升,其应用场景已经从社交、消费等toC应用、扩展到办公、编程、营销等通用toB应用,以及在融合专业场景核心数据后应用于金融、制造、能源等专业toB领域。随着模型能力提升,基于Transformer架构的模型还会以“领域数据+独立模型+专项应用”的形式更多在独立toB领域中得到应用,比如具身机器人、药物研发、自动驾驶等。
三、对应用数据和应用发展的思考
从微观的数据层面,在理解应用数据与模型能力的关系后,我们应该更科学和客观地看待模型应用数据的开发和治理。从治理侧看,一是对应用数据要在认识上“祛魅”,不要过于神化其价值。海量的用户使用数据大部分是底层数据,用于训练模型还需要人类加工、提炼成为知识类语料,且最终的效果还存在诸多不确定性。它们对模型自身能力提升并不起决定作用,不存在应用数据的飞轮。二是对应用数据的提炼和转化,要相信市场的力量。将应用数据转化成模型训练语料,本质是不同模型厂商结合各自对产业的理解和技术的判断,利用不同方法探索应用数据的最佳利用方式,从而优化自身模型性能的过程。在这种没有成功先例可循、具有专业性和需要试错迭代的领域,基于市场优胜劣汰可以更高效的判断好坏、配置资源。在应用数据的开发侧,要结合模型的应用场景与所需的数据类型,更巧妙地设计软件和硬件。以具身智能场景为例,“插、拉、拧、拔、推”是机器人的关键动作,由此决定了训练数据需要“力量-空间位置”混合的数据类型。而对相关应用数据的获取可以分为两个阶段:一种是由较低成本方式(传感器生成和采集)获取的,规模大但质量一般的数据用于预训练,另一种是由较高成本方式(人类带外骨骼收集)获取的,数量少但精度高的数据做对齐训练。
从中观的产业视角看模型应用的发展,本质上是模型在不同行业生产Token(模型理解和生成的最小数据单元)能力不断提升的过程。正如黄仁勋所说:Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频,可以代表任何具有明确价值的事物。这种生成式AI的崛起意味着人类可以学习并模拟物理现象,让大模型理解并生成物理世界的各种现象。而模型在应用领域的拓展,就是为越来越多有价值的事物生产Token,无论是蛋白质、基因、天气模式,还是汽车的转向盘控制、机械臂的关节运动等等。符合Token视角的数据利用模型,需要我们通过新的技术方法和商业模式的设计,把各个领域沉淀的数据更好利用起来,让更多领域知识先以Token的方式被模型学习和理解,进而再由模型生成更多有价值的新Token。
从宏观视角看模型对数据的利用方式,我们发现大模型是数据释放价值的最短路径。根据经典的DIKW金字塔理论,数据发挥价值的路径是从原始数据(Data-D)形态出发,通过对原始素材类数据进行格式化组织和分析,将其转化为人类可以理解的信息(Information-I),从信息中获得见解进而形成知识(Knowledge-K),再由知识升华为更加抽象的智慧形态(Wisdom-W)。决策式人工智能时代,数据要素发挥价值的路径需要从D逐层到W,而通常在D和I之间的转化就需要耗费大量的中间过程才能完成。而大模型在训练时的语料就已经以K层为主,输出的内容大多也直接从K层起步,极大缩减了中间的转化过程,最大程度提升了数据的使用效率。可见,数据发挥价值的机制正在随着技术的发展而不断演化。