本文来自至顶网(ai.zhiding.cn),来源 | The Register。
DeepMind研究人员提出了一种名为Streaming DiLoCo的新方法,可以在分布式环境中高效训练大型AI模型。该方法通过优化参数同步和通信策略,显著降低了带宽需求,同时保持了模型性能。这一突破有望推动AI开发的民主化,使更多机构能够参与大规模模型训练。
随着DeepSeek发布带来的震动逐渐平息,其留下的启示或许是值得探索替代性训练方法。DeepMind研究人员表示,他们已经找到了一种让分布式训练更加高效的方法。
DeepSeek在美国科技行业引起了一定程度的恐慌,因为它的AI性能似乎可以与OpenAI和Meta的产品相媲美,同时该公司声称使用较少的Nvidia GPU以更低的成本训练其模型(这一说法受到多方质疑)。
尽管许多人对这些说法持怀疑态度,但该模型的发布促使科技行业重新思考投入数百亿美元用于训练规模越来越大的模型的策略,这些模型使用装满昂贵GPU的大型AI服务器集群,所有设备都被安置在能耗巨大的数据中心中。
Google旗下的DeepMind随后发布了研究成果,讨论如何在理论上可能相距遥远的计算机集群之间分布式训练拥有数十亿参数的模型,同时保持与之前相同的质量水平。
在一篇标题为"具有重叠通信的流式DiLoCo"的在线论文中,DeepMind研究人员在公司现有的DiLoCo(分布式低通信训练)方法基础上进行了多项改进,使得在"连接不良的设备群"上进行训练成为更可行的方案。
正如论文所述,问题在于大语言模型(LLM)的训练可能需要数万个GPU加速器,随着模型变得更加复杂,这个数字还在持续增加。
研究人员指出,建设和维护能够容纳如此多加速器的数据中心非常昂贵,并带来越来越复杂的工程挑战,其中最主要的就是网络互连和散热要求。
这方面的工作在其他地方也在进行,The Register最近报道了Nvidia等行业巨头正在研究如何将独立的数据中心连接在一起,形成更大的虚拟数据中心,使AI模型能够继续扩大规模。
除了物理基础设施之外,DeepMind解释说:"从软件工程的角度来看,在每个优化步骤中协调这些设备之间梯度、参数和中间状态的传递,同时保持所有设备充分利用在技术上具有挑战性。"
在分布式LLM训练中,数据同步和一致性至关重要,但当涉及大型模型时,网络带宽和延迟会显著影响性能。
解决这个问题的一种方法是提升网络性能,正如Nvidia所关注的那样。该公司最近重点推广其Spectrum-X技术的功能。
DeepMind的DiLoCo方法是通过创建分布式"工作者"组来放宽训练集群的协同位置要求,其中工作者之间的同步不频繁进行。这旨在使用低带宽通信链路连接而不影响学习质量。
流式DiLoCo提出了三项改进来进一步优化其性能:按计划同步参数子集,而不是一次性同步所有参数;将工作者计算时间与同步通信重叠;最后,将外部梯度量化调整为每个参数4位。据称,最后一项修改可以在不损失性能的情况下减少需要交换的数据量。
研究人员表示,论文证明了新方法能够实现与传统数据并行方法相当的训练性能,同时带宽使用量减少了400倍。
Anthropic联合创始人、前Reg记者Jack Clark指出,DiLoCo值得关注。
Clark在其Import AI时事通讯中说:"Prime Intellect的'INTELLECT-1'100亿参数模型是使用OpenDiLoCo(DeepMind DiLoCo方法的开源变体)以分布式方式训练的。"
他补充说,流式DiLoCo运行良好,在对模型质量影响可忽略的情况下实现了带宽需求的显著降低。
"在1B、10B和100B参数模型规模的训练模拟中,他们表明流式DiLoCo始终比普通DiLoCo更有效,随着模型规模的扩大,优势也在增加,"Clark说。
他对这项技术可能带来的未来的展望是,无数模型正在持续训练,"每个模型都植根于数千台有时相距遥远的不同计算机",从而将AI开发从拥有庞大计算资源的大公司手中民主化。
Gartner副总裁分析师Chirag Dekate的观点更务实,他只是指出了分布式训练取得的进展。
"像量化(混合精度运算)和重叠(计算和通信以隐藏延迟影响)这样的技术是精心设计的工程属性,旨在克服底层加速器的限制。如今大多数加速器都在内存、内存带宽和IO带宽层面遇到瓶颈,"Dekate观察到。
"使用DeepSeek和Google DeepMind采用的技术现在正成为常态。这的净效果是提高了可扩展性,同时更有效地利用底层AI超级计算资源。因此,模型和AI超级计算机都可以提供更大的可扩展性,它们一起可以提供更强大的AI,"他表示。
但DeepMind的研究人员认为流式DiLoCo仅仅是迈向"分布式免费午餐"的第一步,还需要进一步的开发和测试。
论文指出:"将联邦学习文献中的想法带入LLM大规模训练的新世界存在巨大机会",但补充说"关键的下一步工作是研究像我们这样的新分布式方法应该如何在多个维度上进行调整和扩展。"
特别是,它总结说,确定如何为等效Token预算高效扩展DiLoCo副本数量的工作至关重要。