绿色智算中心如何破解AI能耗困局

未然
目前,中国的算力发展正驶入快车道。截至2023年底,国内算力服务的机架数量达到810万个,总规模位居全球第二。构建全国一体化的算力网络,是迎接科技革命和产业变革新浪潮的关键一步。今年的政府工作报告中提到,2024年将超前布局数字基础设施,加速打造全国一体化的算力架构。

本文来自微信公众号“IDC圈”,作者/未然。

在数字经济的巨浪中,算力如水和电一样,成为现代社会的生命线。掌握算力,就像握有通往人工智能世界的黄金船票。

目前,中国的算力发展正驶入快车道。截至2023年底,国内算力服务的机架数量达到810万个,总规模位居全球第二。构建全国一体化的算力网络,是迎接科技革命和产业变革新浪潮的关键一步。今年的政府工作报告中提到,2024年将超前布局数字基础设施,加速打造全国一体化的算力架构。

然而,算力的飞速增长也带来了电力的挑战。据报道,全球数据中心的用电量将在四年内翻倍,从2022年的460太瓦时跃升至2026年的1050太瓦时,而在国内同样面临数据中心的用电量增长的境遇。

自“东数西算”工程实施以来,据报道,2022年,全国数据中心耗电量约占全社会用电量约3%。在比特与瓦特之间的供需矛盾中,近两年来,人们开始呼吁算力与电力协同发展。随着降低能耗的呼声日益高涨,业界对绿色算力的期待也在不断增长。

智算中心的能源环保困境

AI模型的训练和推理过程对计算资源的需求巨大,这直接导致了电力需求的激增和相应的碳排放。以GPT-3为例,拥有1750亿个参数。训练GPT-3需要大量的计算资源,使用了数千个GPU和数周的时间。据估计,训练GPT-3的碳排放量相当于一辆汽车在其生命周期内(包括制造和行驶)的总碳排放。具体来说,大约需要数十万度电,这对环境的影响是显著的。

训练大型神经网络模型的时间、配置和能耗也因模型和训练算法的效率而异。例如,优化模型的FLOP利用率(MFU)以及整体网络和服务器的功率效率和使用情况都对能耗产生显著影响。不同地区的电网碳强度差异,也会导致训练同一模型产生的碳排放量有所不同。例如,法国60%的电力来自核电,电网碳强度仅为0.057 kg CO2e/kWh,远低于美国的0.387 kg CO2e/kWh。

640 (1).png

除了直接的能源消耗,智算中心还需考虑隐含排放,即制造和运输计算设备所涉及的总碳排放量。尽管关于AI加速器芯片的隐含排放数据不多,但估计每个A100 GPU的隐含排放为150kg CO2,而一台托管8个GPU的服务器的隐含排放为2500kg CO2。隐含排放约占训练运行总排放量的8-10%。

智算中心的运营成本中,电力成本占据了相当大的比例。以一个典型的8个GPU的H100服务器为例,每月需要消耗10,200W的IT功率,电费成本约为4,406元(假设每千瓦时电价为0.6元)。随着推理需求的不断增加,这一成本还将进一步上升。

为了确保智算中心的正常运营,稳定且可靠的能源供应链至关重要。地缘政治和天气干扰可能导致能源价格波动,因此,建立稳定的供应链以降低这种风险显得尤为重要。此外,还需要具备快速提升燃料生产能力,从而迅速规划大规模发电的能力。

破局之道

提高能源效率是降低智算成本的首要途径。通过优化模型FLOP利用率(MFU),可以在不增加计算资源投入的情况下提高计算效率。此外,改进训练算法和硬件架构也有助于降低功耗。

使用低碳能源是减少碳排放的有效手段。例如,法国在这方面做出了很好的示范,其60%的电力来自核电,大大降低了碳排放;而微软通过采购清洁能源满足人工智能和数数据中心不断增长的需求,计划到2030年在美国和欧洲建立10.5吉瓦的绿色产能;其他国家可以通过增加可再生能源的比重,如风能、太阳能等,来降低电网的碳强度。

640 (1).png

绿色数据中心通过采用节能技术和设备,可以显著降低能源消耗。例如,使用液冷技术代替传统的风冷技术,可以提高散热效率,减少空调系统的能耗。此外,合理的建筑设计和布局也有助于提高能源利用效率。

碳补偿机制是一种通过购买碳信用来抵消碳排放的手段。智算中心可以通过投资可再生能源项目或植树造林等方式,达到碳中和的目标。虽然这并不能从根本上解决问题,但可以在短期内缓解碳排放的压力。

AI技术的发展不可逆转,智算中心作为其核心支撑,将在未来扮演越来越重要的角色。降低智算成本不仅是企业的需求,更是国家科技发展的战略任务。通过平衡训练与推理的投入、优化能耗与碳排放、加强地区间的协同调度以及提升软实力建设,这些措施将有利于绿色智算中心的能源之困的破局。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论