曙光智算加速构建全面算力网络生态

近年来,中国算力服务行业迎来多项显著发展趋势,得益于政策引导、头部企业推动、技术创新以及对绿色节能的关注。

曙光智算信息技术有限公司是中科曙光的全资子公司,专注于算力运营业务。公司在全国十余家计算中心运营,总聚合规模达1000PFlops,主要采用国产化算力资源。公司全国一体化算力服务平台(AC平台,AC.sugon.com)实现了多算力池高速互联、资源聚合和资源协同,形成曙光先进计算算力网络。平台支持上百款国产工业软件,促进了自主产业的发展。AC平台为用户提供科学计算算力服务、人工智能算力服务、工业计算算力服务,并建设了各行业应用商城、应用平台、应用社区等应用环境,重点支持应用软件研发与应用。成功支撑的科技前沿应用项目包括上海交大类脑智能与科学技术研究院的860亿神经元全脑模拟计算、国家天文台的高精度天体物理模拟。在人工智能领域,曙光智算率先支持了清华大学完成175B参数规模的GLM大模型训练,与中科院自动化所和国产百度飞浆生态进行深度适配。在政务服务领域,平台成功支撑了多个政府气象环监部门的气象环境预测业务。在汽车行业,公司为江淮汽车、蔚蓝汽车、长城汽车等提供了设计仿真、数据分析等创新业务支持。截至目前,该平台已聚集了超过10万用户,整体应用提交作业量达10亿个。

一、实施背景

近年来,中国算力服务行业迎来多项显著发展趋势,得益于政策引导、头部企业推动、技术创新以及对绿色节能的关注。

在新技术推广的背景下,中国政府积极推动“东数西算”工程,旨在全面推进算力基础设施化。其中,建设全国一体化算力网络国家枢纽节点成为关键举措,通过顶层设计统筹调度计算需求与供给,提高算力使用效率,为算力资源的互联互通奠定坚实基础。

头部企业的积极推动是行业快速发展的重要动力。它促使算力服务平台市场逐渐成熟,使服务的快速部署和灵活调度优势得到更广泛应用。这一趋势助力科研工作者从传统自建计算系统向服务转变,为他们提供更便利的算力服务体验。

容器技术作为下一代发展热点备受关注,通过轻量级操作系统虚拟化,提高了研发效率、增强了计算环境的可移植性,从而加速了研发速度和效率。同时,新兴技术的快速应用,如人工智能和物联网,将进一步提升算力服务水平,改善模式下的资源调度效率和冗余优化管理,提高用户服务的操作体验。

另外一方面,在面对算力服务的巨大能耗挑战时,中国将绿色低碳的高端计算发展确立为未来市场发展的主题。这一愿景的实现将通过政策引导、产业协同和标准优化等多方面手段,力求在算力服务行业实现统一调度,以达到供需平衡并推动绿色节能发展。

综合来看,政策、头部企业的推动、技术创新以及对绿色节能的关注,共同塑造了中国算力服务行业的发展格局,为未来提供了广阔的前景。

二、实施目标

算力行业技术情况分析

算力服务平台在技术水平上具有相对较高的起点,其核心技术特点主要体现在算力资源接入与池化、资源调度以及数据安全管理等方面。

首先,在算力资源接入与池化方面,传统算力服务难以实现对算力资源的“区域一盘棋”或“全国一盘棋”统筹。通过搭建算力服务平台,采用算力资源池化和API接入技术,实现了算力资源的合理配置,从而显著提升计算效率。这为全国范围内的算力资源统一调度提供了有效手段。

其次,资源调度方面,算力服务相较于互联网服务更注重算力资源冗余度的策略、数据安全和稳定性。在高端计算服务场景中,对计算结果的准确性和时效性要求更高,因此对算力资源冗余度的策略需要严格测算和配置。未来,更有效的算力资源冗余度策略、资源调度技术以及更可靠的数据安全技术将成为算力服务行业的核心技术发展趋势。

资源调度技术是在拥有算力资源池的前提下,对算力资源按下游用户的实际需求进行合理、快速分配的过程。为确保算力服务的运行稳定性和可靠性,资源调度技术需要根据项目特征进行冗余度策略分析,以达到最佳的服务效果。

最后,数据安全管理是确保数据在传输、储存和分析过程中安全可靠的技术手段。这包括硬件层级的数据保护和软件层级的数据加密、系统安全防护等手段。在算力服务中,数据安全管理是保障用户数据隐私和服务可信度的重要环节。

算力服务行业面临的主要机遇与挑战

算力服务平台面临着满足人工智能计算迅速发展的迫切需求。随着人工智能技术的高速发展,尤其是大规模模型的广泛应用,对算力的需求呈爆发性增长。这为算力服务行业提供了巨大的机遇,成为人工智能发展的技术支撑和引擎。

同时,算力服务行业还面临着用户使用体验和门槛过高的挑战。用户可能在配置、使用和优化算力资源时面临一系列复杂的技术和操作问题,导致体验不佳。改善用户体验的同时,减少算力服务的技术门槛将成为行业持续发展的关键。解决这一挑战将需要更加智能、易用的算力服务平台,以满足不同用户群体的需求,促使更广泛的用户参与并受益于人工智能和高端计算等领域的发展。

另一个挑战是互联网服务商的竞争。大型计算公司进入算力服务细分行业,凭借规模效应和较低的成本,对行业构成竞争威胁。算力服务商需要不断提升产品性能和客户服务质量,以在激烈的市场竞争中保持竞争力。

三、建设内容

曙光智算AC平台建设所需专业技术及特点

在构建算力服务平台时,借鉴成熟的技术路线是至关重要的。曙光智算全国一体化算力服务平台(简称AC平台,AC.sugon.com)拥有20余年的技术沉淀,其核心技术模块包括管理调度、跨域调度、交易闭环、异构算力调度、AI融合和应用商城,这些模块的技术成熟度直接关系到项目的成功。

1.管理调度:该技术已相当成熟,使用多种开源和商业调度器(如Slurm、Kubernetes、PBS)能够实现资源的动态分配和管理。这为服务平台提供了强大的资源管理和调度能力,可轻松集成到先进算力服务平台,以适应不断变化的工作负载需求。

2.跨域调度:随着容器和虚拟化技术的发展,跨域调度技术逐渐成熟。通过这些技术,可以实现对不同地理位置或网络的资源进行任务调度和分配。服务提供商已提供跨域调度的解决方案,以满足用户对分布式应用程序性能和可用性的需求。

3.算力交易闭环:算力交易技术已十分成熟,许多服务提供商提供完整的算力交易能力。这些平台通过将算力资源作为商品进行买卖,提供灵活计费方式、实时监控和安全保障,满足用户对高端计算的需求。

4.异构算力调度:此技术正处于发展和完善阶段,目前已有一些开源组织和商业公司提供解决方案(如OpenCL、CUDA)。异构算力调度可统一管理不同硬件平台(CPU、GPU、FPGA等),满足不同应用的需求,尤其适用于AI和机器学习领域。

5.AI融合:将人工智能技术融入算力服务平台,提供智能、自适应和预测性服务。众多服务提供商已推出AI服务,包括机器学习平台和自然语言处理平台,为平台增加智能化特性。

6.应用商城:提供在线市场,用户可购买和使用各类应用和软件。许多服务提供商已提供应用商城服务,用户可根据需求搜索、购买和使用各类应用和软件,并享受额外服务如计费、监控和安全保障。

这些专业技术的综合应用将为AC算力服务平台提供强大的功能和性能,为用户提供高效、安全、智能的计算服务。

AC平台是通过与合作服务提供商合作,将基础业务组件模块化、服务化,以应用服务形式提供给用户。该平台涵盖计算服务、应用服务、资源服务、存储服务、带宽服务、调优服务等,支撑高端计算、人工智能、计算以及融合型应用场景。

曙光智算AC平台计算服务产品

曙光智算的算力服务消除了对计算硬件的限制,提供了在不牺牲性能的情况下,在工作负载优化的基础架构配置上无缝扩展计算工作负载的能力。

价值创造:

AC平台算力服务不断为客户创造价值,用户可以像获取水煤电一样方便获取服务,实现按需供给、加速创新和经济高效。

•按需服务:提供计算一样按需获取计算资源的便捷服务,实现资源的动态配置。

•加速创新:计算服务允许用户、软件应用程序和算法无缝地利用这些功能,从而加速采用周期和部署。

•计算融合:算力服务是使任何软件应用程序具备大计算能力和处理管理开销复杂性的关键启用层,支持新的应用程序类别的开发。

•经济高效:提供灵活性和无限容量,降低成本、释放创新和加速开发。

应用场景:

平台适用于多种应用场景,适配多种负载的融合型场景,关键支撑如下领域:

•计算密集型应用:适用于大型科学工程计算、数值模拟等领域,如石油、气象、制药等。

•数据密集型应用:包括数字图书馆、数据仓库、数据挖掘、计算可视化等,服务领域涵盖图书馆、银行、证券、税务等。

•通信密集型应用:用于协同工作、网格计算、遥控和远程诊断等场景,服务领域包括网站、信息中心、搜索引擎、电信、流媒体等。

典型案例:

平台支撑了重多重大科技前沿应用,包括支撑上海交大类脑智能与科学技术研究院完成860亿神经元全脑模拟计算,支撑国家天文台完成高精度天体物理模拟;在人工智能领域,曙光智算率先在2021年支撑清华大学完成175B参数规模的GLM大模型训练,中科院自动化所百亿大模型多模态模型训练,与国产百度飞浆生态进行深度适配;在政务服务领域支撑包括安徽气象台、浙江环监、四川环监、重庆环监等政府气象环监部门的气象环境预测业务;在汽车行业,支撑包括江淮汽车、蔚蓝汽车、长城汽车等车企进行设计仿真、数据分析等创新业务。

AC平台模式的应用多样性使其成为各行各业的重要支持,为用户提供高效、灵活的计算服务。目前平台已经聚集了10万以上用户,整体应用提交作业量达10亿个。

THEEND

最新评论

更多
暂无评论