本文来自微信公众号哈佛评论,作者|蒋杰。
数据与算力的暴力美学
22年末到23年初,生成式AI的横空出世让世人无不为之震惊。我自己也一样,花了很多时间来研究思考这件事:一方面,它在效果上的突破超出了我的预期;另一方面,去掉表面的花里胡哨,OpenAI其实是在极端专注做一件事:Scaling Law。意思是OpenAI用大量的数据和算力,使用通用的架构(Transformer),然后就是专注All In,用“暴力解法”实现了智能的涌现。用白话讲,Sacling Law就是“量变引起质变”,或者说是“数据和算力的暴力美学”。
Scaling Law是深度学习领域重要的技术信仰,2019年更是有人(Rich Sutton,“The Bitter Lesson”)做了精辟总结,基本意思是:算法雕花用处不大,更多数据-更多算力才是王道。
Scaling Law也一直是我的技术直觉。从2021年开始的“下一代广告系统”项目(广告系统2.0)就是按照这个思路去做的:用更大的模型、更多的数据、更强的算力来去做广告效果的预估(CTR,CVR等)。以及,生成式AI出来之后我首先做的就是把腾讯的算力集中起来;通过搭建基础设施(机器学习平台)来让各团队可以集中、高效地使用这些算力。于是,在这之上才有了“腾讯混元”模型,现在也是我在负责。
生成式AI给了我很多启示。一方面,它更坚定了我对于Scaling Law的信仰,另一方面也让我在思考:如何进一步运用大语言模型的技术和思维方式到广告系统里来。近期发布的“广告系统3.0”算是一个初步尝试。
让广告系统做到“真正的理解”
生成式AI最让人惊讶的是:它懂。生成式AI可以理解用户说的话,它不是“鹦鹉学舌”,而是给人一种“它真的懂了”、“它有智慧”的感觉。我们先且不去争论生成式AI是否有真的智慧的问题;但可以知道的是,我们之前的广告系统它根本不懂。广告系统3.0的核心,就是想办法让广告系统“多懂一些”。只有广告系统真的“认识了”、“懂得了”商品、广告素材和用户,才能做到提升投放确定性,减少投放“玄学”。
让广告系统“懂得广告”的第一件事是“新广告ID”。广告ID是广告系统最底层的逻辑,也是广告系统理解每个广告素材的起点。过去遗留的广告计划-广告-素材的多层复杂结构造成了广告ID极端复杂,关联到每个ID上的数据稀疏甚至打架,让系统难以理解。以及,由于系统的不确定性,各家优化师都在大量新建广告素材,行内叫“堆基建”:基本操作就是对素材做一丁点微调再来“赌一次”。这实际上就是在钻“大模型不理解广告,不理解商品”这个空子。
在复杂的ID体系+大量堆素材基建的形态下,受众的行为被大量摊薄稀释了。所以具体到每个广告的相关数据其实很少,而指望用摊得过薄的数据做出好的预测是不可实现的。于是我们要做的就是通过新ID体系,把同样商品——类似素材的广告进行“归堆”,这样在模型预测的时候就有更多数据,广告投放也会有更高稳定性,更好效果。
我们看到,在广告系统3.0上线之后,腾讯广告的广告数从770万降到70万左右,投放稳定性和确定性都有了明显提升。
第二,“归堆”的前提是对于“广告内容的理解”。也就是让广告系统可以通过分析素材来理解每条广告中究竟要卖什么商品,更适合哪些类型的人群,这样才能把相似的广告进行归类。在这里,系统不仅要理解广告的题目、文案,也要理解图像和视频。这背后在支持的便是“腾讯混元大模型”的“多模态理解能力”。
展望未来,在“提升系统理解能力”这件事情上我们还有很多要做的事情。Transformer给我的启示是:用最简单、通用的架构来容纳各种不同的数据形式。于是,我们也应该把广告域的浏览、点击、加购这类数据和其他类型的基础训练数据一起,以更通用的架构来搭建模型,这或将可以让广告系统在未来实现“智能的涌现”,进一步打开效果的天花板。
从管理过程到管理终局
回归消费者的本质需求
随着广告系统的升级,模型的能力会越来越强,但模型永远无法端到端解决所有问题。在这个过程中,优化师、设计师、投放代理并不会消失,但他们的工作性质正在开始在转变。
回想一下之前优化师的工作:很多时候是需要高速完成投放操作,成批大量生产素材……在这个过程中,优化师的工作本身和最终消费者的诉求是脱节的:他们并没有时间,也没有被要求去理解商品和消费者的诉求。随着AI能力的增强,优化师将会从这些简单重复性的劳动中解放出来,更多从商品、商业模式、消费者的角度去思考和决策。
归根结底,投放广告本身不是目的,广告的目的是最后的销售。
作为品牌、代理商,则要从关注广告投放的过程中解放出来,更多来思考如何满足消费者的本质需求:产品上的、品牌上的、商业模式上的。也就是“从管理过程到管理终局”。
首先,是素材本身。现在有些行业AIGC素材占比已经占到20%;但这并不意味着设计师失去工作,而是要求设计师运用对商品和对消费者的理解能力,在大量AI素材中选择和共创;得到最适合品牌、最能打动消费者的内容。以及,品牌和代理商要根据素材的转化数据,来反哺和指导AI/大模型未来的创意生产。
第二,商业模式与链路。“广义商品”-“卖东西”这件事情在不同行业有非常不同的商业模式和链路:比如汽车、地产销售要先留资,教育行业先要转化低价课再转化正价课,游戏的目标是游戏内部的购买或广告曝光……这些商业模式的本质都是在不断发掘消费者的需求。但模型本身并不能直接理解这些商业模式;所以如果希望模型可以预估准确,那就需要我们来明确定义链路和优化目标,让模型从头到尾“理解”商业模式和最终诉求。
第三,全面数据化。刚才提到的无论是素材还是链路,核心都是要让模型去理解商品、理解素材、理解消费需求。这一切的核心是数据。如果我们的销售流程是纯线下的、无记录的,那么“巧妇难为无米之炊”:模型无法去理解没有/缺乏数据的商业链路,更无法理解广告在整个销售流程中发挥的作用。因此对于模型来讲,完整获取全链路数据对于效果优化至关重要。以直播电商为例,只有有了完整的预约-观看-点赞-加购-付款-物流-退货的全流程数据,模型才能真正理解消费者的诉求。因此,对于品牌和代理来讲,第一件要做的事是对于销售流程的数字化,之后第二步则是把这些数据与平台的其他数据做有效合作共建,这样才能充分实现商业价值。
与此同时,作为平台的责任,则是更好地与广告主、代理商做好配合:提供稳定的投放体验,不断提升投放效果,打造更有效的数据合作模式,提供更好用高效的创意工具……以及最重要的:做底层技术创新。我认为这条路的主线就是在scaling law上不断前进,把更多样的、更大量的、更准确完整的数据给到广告模型;同时更集中地提供算力、时延等资源给到关键的模型预估环节。相信顺着这条路走下去,广告模型也会通过量的积累,实现质的飞跃。
在AI时代重新定义人的价值
退一步,我们其实已经可以明显感受到,AI时代的工作一定是人与AI配合完成的。于是一个自然的问题是:人和AI各自应该做哪些工作?人与AI应该如何配合?
如果一言盖之,AI擅长的是大量并行的重复性的工作;而人更擅长不确定性高、创新性强、洞察人性的工作。AI可以做大量的信息收集,但决策还是需要人来做。
那么回到广告行业,随着模型能力的提升,我希望大量的优化师和运营人员可以从低效的重复劳动中解放出来,真正来思考如何满足消费者、广告主的诉求的事情:更明确的品牌形象,更吸引人的素材内容,更顺滑的转化链路和商业模式,更好的产品,更优质的服务……而AI则可以在那些原来需要大量人工的场景中发挥作用:比如素材的制作与修改,修改出价,数据挖掘与分析……
最后,AI会成为一个管理学问题。广告行业的管理者们马上就要去思考:优化师、设计、传统媒介在新形势下的职业发展问题;以及以模型为中心的营销领域组织架构问题。如果再把眼光放远一些:未来的大多数工作一定是AI与人的混合团队完成的。那么作为公司高管,我们应该如何管理这样一只混合团队?哪些工作AI可以更好完成,哪些工作适合人来做?是否应该让AI来管理AI?是否应该让AI管理人?哪些决策可以下发给AI?哪些必须人工来做?……这些问题是值得我们每一个管理者深入思考的问题,因为未来3-5年这些事情都会变成现实。以及,我们也要和AI”换位思考“,从AI的角度出发,找到那些最适合AI完成的工作。这样我们才可能让公司,让业务进化到“AI原生”,发挥AI最大、最合适的价值。
蒋杰,博士,2012年加入腾讯,现任腾讯公司副总裁。蒋杰作为腾讯企业发展事业群副总裁,全面负责腾讯广告平台产品技术管理工作;同时兼任技术工程事业群副总裁,管理腾讯AI实验室、数据平台、数据库平台、机器学习平台和计费平台。
蒋杰博士在海量计算、分布式架构、数据挖掘、机器学习等方面拥有超过十年以上的从业经验,曾多次受邀在中国系统架构师大会、中国云计算大会做主题演讲。蒋杰作为腾讯通用大模型的负责人,在2023年9月正式发布”混元”大模型。