本文来自微信公众号“中国信息化周报”,作者/于帆。
4月28日,2024中国移动算力网络大会在苏州召开。会上,中国工程院院士郑纬民在题为“如何构建基于国产AI卡的万卡大模型训练平台”的演讲中表示,由于种种原因,在大模型训练中用量较大的英伟达GPU产品,不仅价格暴涨还一卡难求,这给国内AI产业带来严峻考验的同时,也为国产AI卡带来难得的发展机遇。
大模型训练需求高涨算力建设指向万卡平台
近年来,人工智能迎来爆发性增长,随之而来的是大模型训练对算力的高需求,以及算力的高成本,智算服务的稳定性保障成为备受关注的研发热点。郑纬民指出,大模型训练的70%成本和推理的95%成本都与算力直接相关。
在此背景下,如何构建基于国产AI卡的万卡大模型训练平台?郑纬民提出要从四个方面着手。
第一,平衡半精度运算性能与双精度运算性能。16位运算对人工智能应用至关重要,但随着技术的发展,64位运算性能也变得同样重要,因此设计系统时需要考虑64位双精度和16位半精度的运算性能平衡,双精度与半精度运算性能之比为1:100比较合适。根据科学计算(AI For Science)和大模型训练的发展趋势,变精度平衡设计为适应科学计算和更广泛的AI算法及应用提供了保障。
第二,网络平衡设计。构建大规模计算系统时,如何将大量计算卡有效地连接起来,形成一个高效稳定的计算网络,是实现高性能计算的关键。有的大模型用了10000张卡,这10000张卡如何将它们连接在一起?将每100张卡两两互联,进行不同的通信设计,来满足数据并行、模型并行和专家并行等不同的运行方式。
第三,体系结构感知的内存平衡设计。一方面访问内存的请求使网络拥塞,降低吞吐量,反映到应用程序上表现为访存性能显著下降;另一方面,多个访问内存的请求可能访问同一存控对应的内存空间,负载不均,存控需要顺序处理访存请求。
第四,IO子系统平衡设计。需要支持检查点,增加SSD。另外,系统的本地nvme ssd仅通过本地文件系统访问,限制了其应用范围,需要将每台服务器上的快速本地nvme整合成应用可见的全局分布式文件系统。
“大模型基础设施平衡设计的几点考虑做得好,别人要用1万块卡,我们用9000块卡就可以了。”郑纬民指出,构建基于国产AI卡的万卡大模型训练平台面临巨大挑战,但通过技术创新和产业合作,存在克服挑战的可能路径。
解决十大软件难题,国产AI卡的破局之道
目前支持大模型训练的有三种算力系统,分别为基于英伟达公司的GPU系统,基于国产AI卡的系统,以及基于超级计算机的系统,三种算力系统各有优劣。
郑纬民提到,英伟达GPU系统的优点是硬件性能好,生态系统较完善,但由于种种原因,当前的英伟达GPU产品不仅价格暴涨还一卡难求。这给国内AI产业带来严峻考验的同时,也为国产AI卡带来难得的发展机遇。
国产AI卡虽然在性能上与国际领先产品仍存在差距,但部分产品已经取得了很大的进步。不过目前国产AI卡的生态系统还不够成熟,导致用户在迁移过程中面临困难,这影响了国产AI卡的市场接受度。因此构建一个强大的软件生态系统,将是国产AI卡成功的关键。
为改善国产AI卡的生态系统,提升国产AI卡的竞争力,郑纬民提出需要开发十大关键软件:编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统。这些软件目前已经存在,但其稳定性和性能仍需提升。只有这些软件形成良好协同效应,才能为用户提供更加流畅、高效的使用体验。
郑纬民提到,只要把这些问题解决好,改善繁荣国产软件生态系统,即使国产AI卡的性能低于英伟达的GPU产品,用户可能也会更倾向于使用成本更低的国产解决方案。
除GPU系统和国产AI卡系统,超级计算机也可用于支持大模型训练,但需要从源头做好软硬件协同设计。
郑纬民表示,目前我国超算水平已经处于国际第一梯队,国家拥有14个一级超算中心,具备极高的计算速度,但部分超算中心的算力利用率并不饱和。虽然它们不是专门为大模型训练设计的,但它们的空闲资源可以被利用来进行大模型训练。通过优化超算中心的调度系统,实现对其计算资源的高效利用。
以训练LLaMA大模型为例,与租用英伟达GPU相比,使用超算系统不仅训练推理任务的精度一致,还可以节省高达6倍的成本。使用超算系统进行大模型训练可以节省成本,对大规模计算任务而言无疑是显著优势。此外,国内的百川开源大模型也已经成功运行LLaMA大模型进行精调和推理任务,这表明国产平台在软件兼容性方面取得重大进展。
目前,国产算力仍有强大发展潜力有待挖掘,包括大模型训练效率等硬件性能提升、软件生态系统的建设以及市场接受度的探索。面对全球科技巨头的竞争压力和技术封锁,以及国际政治环境导致的供应链短缺,发展国产算力迫在眉睫,必须加快自主研发生产的步伐。
郑纬民对未来国产化算力的发展保持乐观态度,只要努力完善繁荣国产AI卡的软件生态系统,攻破十大软件难题,就可以提高国产AI卡的市场竞争力,并最终实现对国外技术的替代。因此,构建国产AI卡的万卡大模型训练平台很难,但也很重要以及必要。