支撑全产业AI,需要怎样的算力服务?

藏狐
AI规模化落地应用,扎扎实实为国民经济提质增效,问题也随之而来,AI算法的不断升级,比如千亿级参数大模型的出现,要求更强大的算力资源及服务。

本文来自脑极体,作者/藏狐。

近年来的AI,可以用“从偶像派到实力派”的转变来形容。下围棋的神奇、算法科学家的高薪,抑或是投资并购的新闻,热度已经不复往昔。反倒是在产业中,AI正在进入前所未有的应用大爆发阶段,大量算法创新、软硬件配套、垂直行业解决方案等层出不穷。

AI规模化落地应用,扎扎实实为国民经济提质增效,问题也随之而来,AI算法的不断升级,比如千亿级参数大模型的出现,要求更强大的算力资源及服务。

最近,亿欧智库发布了《2022中国算力服务市场发展研究报告》,从中可以看到,支撑大模型时代的算力服务,需要的是“四梁八柱”一样的韧性和抗冲击能力。

2345截图20220818151609.png

“四梁八柱”,是中国古代传统的一种建筑结构,梁柱是支撑大厦的根本。因此中国在经济政治改革过程中,都强调先确立各领域具有四梁八柱性质的主体框架,排出优先顺序,重点推进,发挥好支撑作用。作为产业AI重要支撑的算力服务,自然就是AI产业化的“四梁八柱”。

怎样的算力服务才能满足时代所需,让我们从报告中,看看是什么决定了算力服务,又有哪些群雄逐鹿。

算力服务:产业AI的输出逻辑

可能很多人认为,算力不够,基建来凑,缓解AI算力瓶颈要靠更多更大规模的算力集群。这当然是解决方案之一,但要注意的是,算力如同黄金、电、光纤等资源一样,需要在互联的过程中传递并发挥价值。举个例子,电气革命的一个标志性突破就是爱迪生将直流高压电从5V提升到了110V,使得电力能够在电网上进行远距离传输,接下来发电设备、用电设备成网,能源互联以及稳定的电力服务网络,推动人类社会走上了普惠电器的时代。同样,没有宽带服务,就算你家楼下埋着万兆光纤,也照样享受不到高速冲浪的快乐。

2345截图20220818151609.png

科技先驱、以太网之父Robert Metcalfe提出,网络的价值与联网的个体数量的平方成正比。联网的个体数量越多,网络的总体价值就会越高。对于AI来说也是如此,联网的算力集群越多,能为国民经济带来的价值就越大,而算力互联之后必须依靠服务来进行保障。

事实上,东数西算工程也洞察到了这一科技产业基本规律,通过推动算力成网,形成一体化算力网络体系,并基于高质量算力平台来提供服务,满足更多领域的算力需求。

随着使用算力的企业增多,如何评测算力、稳定供给、降本增效、便捷服务,成为待解决的问题,迫切需要与产业智能化速度相匹配的算力服务。其作为数字经济的“四梁八柱”之一,必须从现在开始建构。

集算力服务之力,

一家AI公司的突围之路

那么,具体到现实中,企业在研发和落地AI时,究竟需要怎样的算力服务来保驾护航?在与一些行业用户、科研机构的交流中,我们似乎找到了一些答案。

1.资源瓶颈。

AI训练需要极大的算力,目前,我国区域间算力资源供需还未平衡,传统运输方式调度难度大,算力供给与需求是不匹配的,企业要打造一个可堪重用的AI模型,必须有稳定可靠的资源衔接平台来供给资源。有企业专家表示,专用任务的计算,高端计算资源能够大大缩短训练和研发周期。因此,他们选择与一站式算力服务平台合作,平台能够将多种算力资源整合,帮助企业解决了算力紧张、算力调度和算力释放等综合问题。

2.成本瓶颈。

AI需要调动各类专用芯片产生的诸多类型算力,研发阶段需要耗费巨大的成本,效能每提高一个百分点都是巨大的节约。据专家分享,通过一站式算力服务来应对大规模的高密集型计算任务(特定任务、特定场景),在经济性上更有优势。在实际研发生产中,可以根据算力用量按需购买,及时对算力进行灵活调整,既满足了研发需求,又避免了服务器资源限制、后期运维等成本。

2345截图20220818151609.png

3.生态瓶颈。AI发展应该以产业应用为导向,引导各方全力以赴,生态建设的重要性不言而喻。专注AI模型研发训练的企业,可以与算力服务平台方合作,将一些AI应用和系统开放给平台生态内的用户,一键式地导入相应的能力来满足应用开发、测试等需求。实现资源与服务的开放共享,有助于建立高效协同的产业供应链,推动AI产研用一体化。

从企业实践中我们可以发现,算力服务不是单纯的算力硬件性能比拼,而是集资源、应用、服务、运维为一体的体系化工程。而目前算力服务整个市场都还处于发展初期,行业竞争格局暂未完全定型,产品和解决方案也各有特色。

云厂商凭借云计算优势能力,云上形成算力资源与服务的完整序列,更为灵活;ICT厂商计算技术突出,性能强、稳定可靠,配套服务能力强;算力代理商配套服务丰富,自身资源能力弱;国家高端计算中心基础设施资源积累多,行业知名度、认可度高,但商业化能力弱。

那么,企业想要选择适当的算力服务平台,究竟有没有定量、定性的科学方法与行业标准呢?《2022中国算力服务市场发展研究报告》或许可以作为参照。

算力服务POSE模型:

解锁AI产业化的新姿势

《2022中国算力服务市场发展研究报告》基于对国内算力服务市场及平台的整体调研分析,提出了算力服务综合价值力分析模型POSE,从中,我们会发现支撑一个算力服务平台品质的四种要素。

2345截图20220818151609.png

产品力:主要指技术能力、基础设施建设、服务价格等产品层面的能力。曙光智算在基础设施建设支撑与技术性能方面略胜一筹;阿里云的算力种类相较更丰富,但在自主创新能力弱于曙光智算与华为云。

运营力:包括服务能力、行业口碑、商业化能力。其中曙光智算与并行科技具有即时、专业的服务能力,对每一个客户都可提供专业的团队支持与应用的迁移适配服务;阿里云与华为云作为云服务先行者,积累大量案例,商业化更快。

调度力:主要聚焦资源协同调度的能力。曙光智算背靠集团20余年异构计算经验沉淀及生态建设,阿里云凭借更早的网络建设布局和云服务基础,双方并列第一。

生态力:全产业链资源聚合能力、适配能力、自身生态开放度等。华为云、阿里云、曙光智算背靠集团生态建设,目前都较为成熟。

不夸张地说,POSE模型的四大要素,也是算力服务的“四梁八柱”,没有这个核心框架的承重能力,很难支撑AI大模型这样的产业“重器”。这也是对厂商们的综合大考:既要快速上马,服务于如火如荼地东数西算工程;还要挑战更好,在群雄逐鹿的竞技场交出更优秀的答卷。其中,曙光在多个指标中都拔得头筹,比起靓丽的成绩,背后所做的努力更值得探究。

聚&变:

一站式平台托举的产业AI集结令

曙光能够在开局就拿出来全国一体化算力服务平台和诸多案例,提前吹响产业AI的集结号,这或许能够从侧面展现出曙光生态的一些特质。

1.全链条:曙光智算背靠集团,进行了全产业链布局,软硬件一体化全面贯穿,整体供应链的抗风险能力与资源调度能力都更强,满足产业大规模应用AI所需的并发性、兼容性与稳定性。

2.全流程:曙光智算虽然入局较晚,但厚积薄发,服务的深度与广度反而很高,比如曙光智算的点对点服务,从算力供给到调度、以及最终的部署与集成,一个平台打通AI产业应用的全部流程,很好地帮助预训练大模型及其他算法模型的加速落地。

2345截图20220818151609.png

3.全包容:曙光智算背靠老牌ICT厂商的多元能力和计算生态,配套服务能力强,生态丰富,有较多用户表示曙光集团本身业务属性与自身业态(如科研及工业)更为契合,这也是为什么曙光一站式算力服务平台能够支撑不同行业、不同企业的数智化。

精微细致的服务所积累起来的,是一次次AI与产业的精密对接,最终量变产生质变,拉开产业AI的大幕。

人类经历了能源互联的电气革命、网络互连的信息革命,终于抵达了算力互联的智能革命门前。算力服务,是AI训练的暴力计算所不可或缺的底座,也是支撑算力互联成网、AI真正走入社会经济的关键力量。而借助更前沿的算力基建和算力服务,这一次,中国将率先推开产业智能的大门。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论