本文来自微信公众号“电子发烧友网”,作者/李弯弯。
最近,在ChatGPT火了之后,国内互联网科技圈不时传出计划或者正在研究类ChatGPT大模型的消息。
然而在相关技术真正面世之前,近日,OpenAI又放出新消息,该公司正式开放了ChatGPT的API接口,开发人员可以将ChatGPT模型集成到他们的应用程序和产品中。这意味着ChatGPT将会以更快的速度占领市场,因此国内企业在大模型的研究中更要加快进度。
在大模型发展中,国内具备了怎样的条件
在类ChatGPT及其他大模型的发展中,国内是否具备相应的条件呢?登临科技联合创始人王平日前在接受电子发烧友采访的时候谈到了几点:
他认为,国内在这方面是具备一定条件的,首先是数据,这是大模型技术中非常重要的一个生产要素,国内在数据上是有一定积累的;其次是人才,在这方面国内有不少优秀的算法人才,在大模型方面具备一定的知识基础与经验;此外,目前国内也有比较不错的AI框架平台以及具备核心技术完全自主研发能力的GPGPU厂商。整体来说整套的生产要素上都有一定的基础,只不过在成熟度上跟OpenAI相比还存在一定差距。
具体来看,在AI框架方面,OpenAI能够推出能力如此强大的ChatGPT,它应该有自己专门的框架。现在各种商用的框架,包括国产的飞桨paddlepaddle,以及Tensorflow或者Pytorch,其实更多是用于常规模型,而不是大模型的调度。因此在发展ChatGPT类大模型方面,还存在一些挑战,需要去持续创新。
在人才方面,虽然目前国内具备一些算法相关的人才,然而整体而言是处于较为紧缺的状态。另外大模型的训练,也需要算法工程师具备丰富的经验积累,因为模型太大,中间涉及很多技术,这并不是短时间砸钱就能达到的。
在硬件层面,国内的GPGPU具有自身的特色,甚至在一些领域比NVIDIA更具优势,在ChatGPT或者相关大模型上,也有它的优势。不过整体来看,还是存在差距,需要不断进行创新和迭代,要不停的向前走。
大模型发展对GPGPU提出了怎样的要求
ChatGPT火热之后,可以明显看到国内在AI大模型方面的发展将会加速,这对国内GPGPU来说意味着什么呢?大模型的发展,必然少不了GPGPU,GPGPU对于大模型就相当于是发动机之于汽车。王平认为,近十几年AI的再度兴起,到现在ChatGPT的爆火,以及未来AI产业的发展再上一个台阶,如果没有GPGPU,这些都不大可能会实现。
因为每个大模型训练和部署的背后,都有几万个GPGPU在支持。可想而知,未来随着这方面的研发和应用的普及,GPGPU市场需求将会再度迎来爆发式增长。
以电力为例,就可以很清楚的看到这个市场未来可能发生的变化。几十年前,电力只是用在一些小用量的场景,随着电力的供给越来越多,电器也越来越多的时候,最后电力就成了一个基本设施。可以说,算力也是朝着基础设施的方向在发展。在王平看来,现在GPGPU还远没有到爆炸式需求的阶段。
当然在ChatGPT或者其他大模型训练和部署,对GPGPU或者说算力也会有更高的要求。王平谈到了几个方面:
首先从单卡层面来看,先来看一组数据,1月份的时候ChatGPT的用户数突破1亿,日访问量有几千万,在这种情况下,它的运营成本会相当高,每天的电费在几十万人民币量级。这时候计算效率很重要,如果计算架构相比于传统的GPGPU更有优势的话,比如,登临科技一些计算密度更大的产品,在计算效率上就更有优势。
其次是单卡之外,卡片间的互联也很重要。因为在用户侧工作的实际上是一个超级计算机系统,在训练的时候,带宽、片间、服务器间的信息传递很重要,这就需要针对大模型的训练框架,在整个服务器集群的调度和协同工作中进行升级优化。
再者就是软件方面,一般来说在软硬件协同的系统里,软件的重要作用不可忽视,因为一些软件栈的原因,或者软件协同调度的问题,硬件往往不能完全发挥出能力。所以我们经常可以看到,在一些场景下,软件稍微进行优化,整体应用性能就会有百分之几十,甚至百分之百的提升。
从硬件公司的角度来看,GPGPU是一个通用平台,行业整体有产品异构化的走向,总体来说,GPGPU存在一些性能瓶颈。登临科技是一家专注于高性能通用计算平台的芯片研发与技术创新的公司,登临自主研发的GPU+架构正式采用了软件定义的片内异构体系,目前首款基于GPU+的系列产品—Goldwasser已在云至边缘的各个应用场景实现规模化落地。据王平介绍:登临科技希望通过异构,从由点及面在一些足够大的市场领域,把产品做到比英伟达同系列产品更具性价比优势,甚至超过英伟达。
带着这样的出发点,在大型语言模型方面,登临科技会更关心如何更好的提升产品的能效比。简单来说,在同样功耗下,登临科技可以提供英伟达1.5到2倍的算力,在算力一致的情况下,做到单位功耗更低这样从计算的整体性能上实现英伟达同类产品的能效比3倍的优势。如此一来,上面提到的电费、运维成本都将会有很大的节省。
小结
不难看出,以ChatGPT为代表的大语言模型发展和应用,对人们生产生活意义重大。随着它的技术和应用逐步成熟,其对GPGPU等算力硬件的需求将会持续增加,就如同文中提到的电力的发展路径一样。当然大模型对GPGPU及算力集群系统的也有更高的要求,比如计算效率更高,能够节省电费和运维成本等,可想而知,对于硬件公司来说,谁能够在这方面更具优势,谁就更能在未来大模型处处落地的时候,更占据优势。