本文来自微信公众号“电子发烧友网”,作者/李弯弯。
在刚过去的2023世界人工智能大会上,大模型可以说是其中的大亮点之一,华为盘古、商汤日日新、网易伏羲等30多款国产AI大模型集中亮相。与此同时,各类人工智能芯片公司、算力提供商也针对大模型展示了相应的方案。
大模型时代,国产AI芯片进展如何?
在这次大会上,瀚博半导体、燧原科技、登临科技、天数智芯等纷纷展示了针对大模型的产品方案,呈现出国产AI芯片在大模型领域的进展情况。
瀚博半导体成立于2018年12月,是一家自研GPU芯片及解决方案提供商。在此次大会上,瀚博发布了第二代GPU SG100,并推出南禺系列GPU加速卡VG1600、VG1800、VG14,以及LLM大模型AI加速卡VA1L、AIGC大模型一体机、VA12高性能生成式AI加速卡等6款新品。
据介绍,瀚博SG100芯片采用7nm先进制程,具备业界领先的渲染性能,同时兼具低延时高吞吐的AI算力和强大的视频处理能力。
值得关注的,针对大模型时代算力需求,瀚博本次首发了LLM大模型AI加速卡VA1L,具备200 TOPS INT8/72 TFLOPS FP16算力,并支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC网络模型。
与此同时,瀚博此次还推出了AIGC大模型一体机,共使用8张LLM大模型AI加速卡VA1L,支持512GB显存,进而支持1750亿参数的大模型。
另外,作为瀚博VA1和VA10的升级版,VA12是一块通用AI加速卡,支持检测、分类、分割、视频增强、语义理解、BERT、Transfomer和视频编解码等应用。
燧原科技在此次大会上发布了燧原曜图文生图MaaS平台服务产品。该产品以燧原科技“邃思”系列芯片为算力支撑,由首都在线提供计算服务,燧原曜图MaaS平台服务产品为用户提供面向AIGC时代的高效易用、安全可靠、企业级的文生图服务。
燧原科技表示,它具备开箱即用可用、所想即所见、创意无限的文本生成图像能力,通过软硬一体方案降低大规模AIGC应用的工程难度与算力成本,开启AIGC应用规模化落地时代。
燧原科技创始人兼CEO赵立东在某论坛上提到,目前燧原已经为大型科研机构部署了千卡规模的AI训练算力集群,并成功落地;而且与腾讯合作,在OCR文字识别、智能交互、智能会议等方面,性能达到了业界同类产品两倍以上,性价比上具有很高优势。此外,在智慧城市方面,燧原完成2022年成都高新区国产化AI视频基础设施平台项目建设。
此次大会上,登临科技展示了最新一代创新通用GPU产品Goldwasser II系列以及基于开源大语言模型可交互界面。据了解,Goldwasser II针对基于Transformer和生成式AI大模型进行专门优化,在性能有大幅提升,已于2022年流片,目前已开始规模化量产和商业客户验证。据现有客户测试结果,二代产品针对基于transformer类型的模型提供3-5倍的性能提升,大幅降低类ChatGPT及生成式AI应用的硬件成本。
天数智芯在此次会上也展示了在大模型训练、推理所取得的显著进展,包括图片识别/以图搜图、3D建模、大模型推理等。在大模型领域,天数智芯今年上半年,搭建了40P算力320张天垓100加速卡算力集群,完成智源研究院70亿参数大模型全量训练,
天垓100是天数智芯2018年研发的通用AI训练芯片,据天数智芯董事长盖鲁江介绍,目前天垓100这款产品还已经成功跑通了清华智谱AI大模型ChatGLM,Meta研发的LLaMA模型。此外,天数智芯正在帮智源研究院跑650亿参数的模型,预计10月份可以跑完。
针对于A800芯片在无许可证的情况下将被禁售的话题,盖鲁江谈到,事实上,不管英伟达的产品能不能卖给中国,我们的产品已经能够用起来了。
算力集群化是发展趋势
伴随大模型带来的生成式AI突破,人工智能正在进入一个新的时代。算力是人工智能产业创新的基础,大模型的持续创新,驱动算力需求的爆炸式增长。可以说,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。
然而,中国的算力已经成为一个越来越稀缺的资源。华为轮值董事长胡厚崑在某论坛上谈到,大模型的研发高度依赖高端AI芯片、集群及生态。高计算性能、高通信带宽和大显存成为大模型训练必不可少的算力底座,单AI芯片进步速度还未跟上大模型对大算力的需求,算力集群化成为不可逆转的发展趋势。
在2023世界人工智能大会上,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,拥有更快的训练速度和30天以上的稳定训练周期。
胡厚崑表示,华为在各个单点创新的基础上,充分发挥云、计算、存储、网络以及能源的综合优势,进行架构创新,推出了昇腾AI集群,相当于把AI算力中心当成一台超级计算机来设计,使得昇腾AI集群性能更高,并且可靠性更高。
据他介绍,昇腾AI集群目前已经可以达到10%以上的大模型训练效率的提升,可以提供10倍以上的系统稳定的提高,支持长期稳定训练。
华为昇腾计算业务总裁张迪煊表示,基于昇腾AI,原生孵化和适配了30多个大模型,到目前为止,中国有一半左右的大模型创新,都是由昇腾AI来支持的。
除了华为,阿里、腾讯等也打造了较大的算力集群,不过主要还是依靠英伟达的GPU芯片。阿里云表示,其拥有国内最强的智能算力储备,智算集群可支持最大十万卡GPU规模,承载多个万亿参数大模型同时在线训练。
腾讯云此前大量采购了英伟达A100/H800芯片,发布新一代HCC高性能计算集群,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,腾讯团队在同等数据集下,将万亿参数的AI大模型混元NLP训练由50天缩短到4天。
小结
无论是大模型的训练,还是后期的推理部署,对算力的需求都相当大。虽然,当前国产AI芯片与国际领先GPU产品在大模型的训练上有差距,不过可以看到,已经有不少产品,在较大模型的训练上已经取得成绩,后续必然还会有更大的进展。同时,为了满足大模型对大算力的需求,算力集群化将会是未来趋势。