GPU的巨大压力即将来临

对“GPU周期”的搜索也可能会带来一些新颖的方法。回想一下,HPC中的一些原始GPU应用程序始于标准GPU卡和一种名为“Brook”的新语言,该语言是CUDA的前身,并在第一段中提到的一些早期GPU卡上运行。一开始,这种方法似乎有点尴尬,但速度的提高是不容忽视的。结果重塑了HPC领域。

本文来自微信公众号“半导体行业观察”,内容由半导体行业观察(ID:icbank)编译自HPCwire,谢谢。。

还记得吗,GPU曾经只是一种小型无风扇显卡,其代表包括Voodoo、Matrox、Nvidia或ATI吗?这个简单的添加为您的PC带来了响应式2D和3D图形的新世界。

如果当时有人告诉你,未来版本的GPU最终将被用作HPC、加密货币和生成人工智能的高性能工具。我怀疑答案会是“什么是加密货币和生成人工智能?”

对GPU硬件或更好的加速器的需求从未如此强烈,如果这种趋势持续下去,当前的高需求可能会延续到不久的将来。就HPC而言,这一趋势表明GPU未来将会变得昂贵且难以找到(除非您购买的数量足以直接向供应商购买)。

GPU非常适合加速矩阵运算,这通常是许多HPC应用程序的核心。它们提供SIMD(单指令多数据)处理单元,可以加速复杂的并行数组操作。正如人们经常指出的那样,HPC GPU市场在一定程度上要归功于规模大得多(约7倍)的游戏市场,它帮助支付了硬件成本,让游戏玩家能够飞越星系,同时允许科学家模拟星系。

加密货币市场改变了这种低端动态。就加密货币而言,游戏GPU非常擅长快速查找唯一数字并产生热量。市场需求相当高,但由于加密市场的不断发展,需求似乎正在下降。

在高端,情况就完全不同了。根据雅虎财经的一篇文章,Reports Insights的一份报告预测:

“受图形处理器(GPU)科学模拟、数据分析和人工智能需求不断增长的推动,全球图形处理器(GPU)市场预计在2022年至2030年期间复合年增长率为33.5%。“

数据显示,2022年,GPU市场估值为447亿美元,预计到2030年将达到4509亿美元。GPU市场的增长可归因于游戏、娱乐和数据中心等各种最终用途行业对高级图形和高质量视觉体验的需求不断增长。虚拟和增强现实的日益普及以及人工智能和机器学习的进步也促进了GPU市场的增长。随着高性能GPU需求的增长,市场有望在未来几年大幅增长,为市场参与者带来大量机会。

然而,对于GPU市场供应商来说,这是个好消息,对于最终用户来说,LLM(大型语言模型,例如ChatGPT)的增长创造了对严格意义上不属于传统HPC市场一部分的GPU的新需求。

以Inflection AI为例,该公司正在开发一种名为“Pi”的“个人人工智能”聊天机器人。为了实现这一目标,该公司建造了一台配备22,000个NVIDIA H100 GPU的超级计算机。为了提供一些背景信息,Frontier是6月23日TOP500列表中排名第一的系统,拥有37,632个GPU。

Inflection AI的情况并非独一无二。SemiAnalysis报告的另外两个数据点也支持同样的趋势。

“即使OpenAI也无法获得足够的GPU,这严重阻碍了其近期路线图。由于GPU短缺,OpenAI无法部署其多模态模型。“

例如,Tik Tok背后的中国公司字节跳动据称从Nvidia订购了价值超过10亿美元的A800/H800。“

正在寻找FLOPS?

幸运的是,GPU对于HPC来说并不是必需的;GPU并不是HPC所必需的。它们对于许多应用都很有用;然而,最新的TOP500系统统计(6月23日)表明,37%的机器使用GPU。这个数字正在增加,并且随着系统进入exaFLOPS领域,加速器的使用将继续。

如前所述,GPU不是必需的,但对于许多HPC应用程序来说通常是可取的。由于生成式AI行业爆炸式增长的巨大需求,许多HPC现场采购和/或云场景的担忧是GPU的全面可用性(短缺)。“任何GPU”(Nvidia、AMD或Intel)的高市场需求可能会促使HPC从业者考虑仅使用CPU的解决方案来帮助加速其代码(例如,众核、AVX-512、HBM、3D V-Cache等)。

对“GPU周期”的搜索也可能会带来一些新颖的方法。回想一下,HPC中的一些原始GPU应用程序始于标准GPU卡和一种名为“Brook”的新语言,该语言是CUDA的前身,并在第一段中提到的一些早期GPU卡上运行。一开始,这种方法似乎有点尴尬,但速度的提高是不容忽视的。结果重塑了HPC领域。

最近,一个有趣的举动是,最新版本的AMD ROCm GPU库(V5.6)提供了对移动和桌面级iGPU(集成GPU)的支持。在LinkedIn上的一篇简短帖子中,HPC专家James Cuff能够使用Ryzen 9 6900HX桌面处理器在CPU和CPU/iGPU上运行TensorFlow基准测试。同样的基准测试在CPU上运行需要13秒,在CPU/iGPU组合上运行需要3秒。当然,还需要更多的测试,但正如对FLOPS的搜索将目光转向了早期基于GPU的显卡一样,寻找内部GPU可能会为HPC组合添加一些未使用和可用的FLOPS。

GPU的巨大压力已经到来。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论