本文来自微信公众号“根新未来”。
对于中国的互联网科技公司来说,谁更有积累可以去做这件事,谁就越能抢到ChatGPT的先机。
本质上来看,ChatGPT就是一种基于InstructGPT算法架构开发的大型预训练语言模型,都是基于大模型、大数据的不断训练。ChatGPT的背后,除了常规的万亿级别语料投喂之外,还依托于其强大的算力。据数据披露,ChatGPT的总算力消耗约为3640PF-days。
简单来说,ChatGPT就是高质量的人工标注数据再加上强化学习结合的产物,ChatGPT在经过万亿级别的语料投喂后不断进行学习和迭代,最后依托于强大的算力为产品的学习和输入输出进行支撑。
因此,对于中国的互联网科技公司来说,谁更有积累可以去做这件事,谁就越能抢到ChatGPT的先机。
实际上,国内这样的大模型非常多,百度、阿里巴巴、腾讯、华为等都有大模型。百度文心模型参数量已经达到2600亿,不逊于GPT3.0。百度宣称今年3、4月份推出类似于ChatGPT的模型,可能首期的应用场景会跟搜索结合,会形成ChatGPT、搜索的双引擎结合模式,发布会的demo出来,整体模型的参数量级甚至比GPT3.0大了50%。华为对于“华为在类似ChatGPT方向的布局”也回应称,公司2020年开始在大模型有布局,2021年发布鹏城盘古大模型,是业界首个千亿级生成和理解中文自然语言处理大模型。
在国内头部科技企业中,相较而言,百度在“类ChatGPT”项目中会有比较大的优势:首先,在国内互联网企业中,百度对人工智能的布局最多;其次,百度的中文语料库最全;第三,ChatGPT所使用的人工智能聊天技术对百度来说是“生命线”,百度必然也会在这方面投入最大,正如谷歌搜索一不小心就会被微软投资的ChatGPT超车,因此,百度在这方面也是最在意的。
不过,相较于ChatGPT的母公司OpenAI来说,OpenAI还具有所有互联网科技大厂都不具有的优势,那就是专注。就训练大模型来说,几百亿的参数或者几千亿的参数,甚至几万亿的参数,都需要面对复杂的工程化的问题,需要不断地谨慎地细致地耐心地去调模型,去优化模型,这个工作是很漫长的。
打个比方,如果我们要去生产训练这样的一个大模型,可能只需要一个月的时间来生产,却需要一年的时间去优化它,这个过程会大量耗费算力和时间,这种调参也被行业人士戏称为“炼丹”。并且,调整和优化的过程,还需要耗费高昂成本。这对于互联网科技巨头来说,也是十分困难的事情,以百度为例,这些年,从人工智能、自动驾驶、新能源汽车、元宇宙,到现在的ChatGPT,百度的布局一个概率都没落下,但却也没有一个真正的产品或事情干出来。
因此,想要抢到ChatGPT的先机,必然需要多方面因素的叠加下,除此之外,还要摒弃杂念,专注于类ChatGPT的研发,精工出成果。