本文来自鞭牛士(www.bianews.com)。
鞭牛士报道,10月24日消息,据外电报道,OpenAI的两位研究人员发表了一篇论文,描述了一种新型模型——具体来说是一种新型的连续时间一致性模型(sCM)——与传统扩散模型相比,该模型将人工智能生成图像、视频和音频等多媒体的速度提高了50倍,生成图像只需近十分之一秒,而常规扩散则需要5秒以上的时间。
通过引入sCM,OpenAI仅通过两个采样步骤就实现了相当的样本质量,提供了一种在不影响质量的情况下加速生成过程的解决方案。
该项创新在arXiv.org上发表的预同行评审论文和今天发布的博客文章中进行了描述,作者是程璐和杨松,该项创新使这些模型仅需两步即可生成高质量样本——比以前需要数百步的基于扩散的模型快得多。
Song还是OpenAI研究人员(包括前首席科学家Ilya Sutskever)于2023年发表的一篇论文的主要作者,该论文提出了一致性模型的概念,即同一轨迹上的点映射到同一初始点。
虽然扩散模型在生成逼真的图像、3D模型、音频和视频方面取得了出色的效果,但其采样效率低下(通常需要数十到数百个连续步骤)使其不太适合实时应用。
从理论上讲,该技术可以为OpenAI的近实时AI图像生成模型提供基础。正如VentureBeat记者Sean Michael Kerner在我们的内部Slack频道中沉思的那样,「DALL-E 4还会远吗?」
保持高质量,同时加快采样速度
传统的扩散模型需要大量的去噪步骤来生成样本,导致其速度较慢。
相比之下,sCM可在一两步内直接将噪声转换为高质量样本,从而减少了计算成本和时间。
OpenAI最大的sCM模型拥有15亿个参数,可以在单个A100 GPU上仅用0.11秒生成一个样本。
与扩散模型相比,这使得挂钟时间加快了50倍,从而使实时生成AI应用更加可行。
使用更少的计算资源达到扩散模型质量
sCM背后的团队在ImageNet 512×512上训练了一个连续时间一致性模型,可扩展至15亿个参数。
即使在这种规模下,该模型仍能保持与最佳扩散模型相媲美的样本质量,在ImageNet 512×512上实现了1.88的Fréchet初始距离(FID)分数。
这使得样本质量与扩散模型的差异在10%以内,而扩散模型需要更多的计算工作量才能获得类似的结果。
基准测试显示性能强劲
OpenAI的新方法已经与其他最先进的生成模型进行了广泛的对比测试。
通过使用FID分数和有效采样计算来测量样本质量,研究表明sCM能够以更少的计算开销提供顶级结果。
虽然以前的快速采样方法一直受到样本质量下降或训练设置复杂的困扰,但sCM成功克服了这些挑战,兼具速度和高保真度。
sCM的成功还归功于它能够随着从中提炼知识的教师传播模型按比例扩展。
随着sCM和教师扩散模型规模的扩大,样本质量的差距进一步缩小,而sCM中采样步骤数的增加会进一步缩小质量差异。
应用和未来用途
sCM模型的快速采样和可扩展性为跨多个领域的实时生成AI开辟了新的可能性。
从图像生成到音频和视频合成,sCM为需要快速、高质量输出的应用程序提供了实用的解决方案。
此外,OpenAI的研究暗示了进一步系统优化的潜力,可以进一步提高性能,并根据各个行业的特定需求定制这些模型。