超算国产化，还需要迈过哪些门槛？

2023-12-12 09:03

信创产业

林栖

ChatGPT之后，大模型已成席卷从人工智能到泛科创行业的公认爆点，国内的互联网科技厂商也在2020年至今的三年期间，相继推出自有大模型。

640 (1).png

本文来自微信公众号“信创产业”，作者/林栖。

ChatGPT之后，大模型已成席卷从人工智能到泛科创行业的公认爆点，国内的互联网科技厂商也在2020年至今的三年期间，相继推出自有大模型。

然而在欣欣向荣的AI浪潮背后，用于支撑大模型的超算基础设施，却依然面临着严峻的“卡脖子”难题，超算国产化已经迫在眉睫。

「信创产业」认为，持续追赶GPU硬件性能的同时，也不能忽视软件生态的发力。在国产化大趋势面前，国产芯片达到及格基线之后，软件的优势将成为弥补性能体验鸿沟的利器。

来源：沙利文

做好国产大模型生态系统，需要越过哪些软件门槛？以下是10大主要方向：

●编程框架

编程框架的主要角色是帮助用户降低编写AI大模型的难度和复杂度，利用基本算子快速构建大模型。目前国外的主流框架包括PyTorch、TensorFlow等，国内有百度飞桨、OneFlow等，但成熟度和易用性尚且有较大的距离。

●并行加速

主要功能是为多机多卡环境提供AI模型并行训练的能力，目前国外有微软的DeepSpeed、英伟达的Megatron-LM。

●通信库

主要用于提供通信能力，其性能的两大考量指标一是需要支持AI模型训练所需要的多种通信模式，二是必须能根据底层网络的特点，最大化利用网络通信带宽。目前国外主流软件包括：英伟达NCCL库、MPI库。

●算子库

芯片算子库是位于芯片底层之上的算子开发工具包，提供AI模型所需基本操作的高性能实现。目前国外有英伟达cuDNN、cuBLAS，国内的华为、讯飞、北京智源人工智能研究院等也都在构建算子库，但刚处于起步阶段。

●AI编译器

对算子库不能提供的操作，可以通过AI编译器自动生成高效目标代码。目前主流产品有英伟达NVCC、XLA、TVM等。

●编程语言

用于支持在异构处理器上编写并行程序，需要能够编写AI模型的基本算子。最著名的就是英伟达的CUDA，英特尔的oneAPI。

●调度器

用于提供在大规模系统上高效调度人工智能任务的能力，需要设计高效调度算法，提高集群资源的利用率。目前国外以K8S（Kubernetes）为主，国内则有华为ModelArts等。

●内存分配系统

主要针对人工智能应用的特点，提供高效的内存分配策略，做好这一方向，将有助于弥合我国AI模型从理论到实践的差距，解决实际运行效率难以达到理论峰值的痛点。

●容错系统

在硬件发生故障后，能够保障模型训练的快速恢复。这一细分方向，对影响国产AI模型在支持复杂应用全流程计算方面的能力改善，至关重要。

●存储系统

在训练过程中，支持高调的数据读写功能，将有效消除计算任务的延迟问题，提升模型训练和进化效率。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

一文读懂量子传感器

4月1日
英伟达会颠覆PC市场吗？

4月1日
重磅发声!多部委“剧透”新政→

4月1日
工信部：2024年数字产业突破35万亿元，原生鸿蒙系统成全球第三大移动操作系统

4月1日
《网络交易合规数据报送管理暂行办法》发布（附一图读懂）

4月2日
从“卡脖子”到自主创新，中国封装材料产业链深度解析

4月2日

精选文章

热点资讯