本文来自微信公众号“半导体行业观察”,内容来自半导体行业观察综合。
英伟达是AI芯片市场遥遥领先的赢家,这是毫无争议的。但现在,多个厂商正在通过各种方式,向英伟达发起冲锋。
AI芯片初创公司融资,与Nvidia竞争
一家旨在与Nvidia(竞争的初创芯片制造商周二表示,已融资2,350万美元,用于扩大其美国产人工智能芯片的生产。
参与此轮融资的投资者包括以支持埃隆·马斯克的公司而闻名的Valor Equity Partners、Atreides Management、Flume Ventures和Resilience Reserve。
Positron的芯片用于推理,即使用AI模型的阶段,而不是用于训练AI模型。目前,对训练芯片的需求更高,但分析师预测,随着更多AI应用的部署,对推理芯片的需求可能会超过训练芯片。
随着企业努力应对AI资本支出、不断上升的成本和供应商锁定,Positron为客户提供了高性能、节能的替代方案。Positron的Atlas系统目前在推理方面实现了比Nvidia H100 GPU更高的3.5倍每美元性能和3.5倍的功率效率。Positron的FPGA服务器利用内存优化架构,带宽利用率达到93%以上(而GPU仅为10-30%),支持万亿参数模型,同时提供与Hugging Face和OpenAI API的即插即用兼容性。与H100/H200设置相比,这些系统的推理速度提高了70%,功耗降低了66%,将数据中心资本支出削减了50%。
除了规格之外(在受全球政治和经济紧张局势影响的生态系统中,这些规格同样重要),该公司的第一代Atlas系统完全在美国设计、制造和组装。
Nvidia挑战者Groq融资15亿美元
美国人工智能芯片制造商Groq报告称,该公司已获得沙特阿拉伯15亿美元的承诺。借助这笔资金,这个中东国家希望扩大先进人工智能芯片的供应。
这家硅谷公司由前谷歌员工、TPU的创造者乔纳森·罗斯创立,以生产优化速度和执行预训练模型命令的推理芯片而闻名。
分析师认为Groq是Nvidia的潜在竞争对手。后者目前是AI革命的最大赢家。凭借Groq及其自主研发的语言处理单元(LPU),一个强大的竞争对手已经酝酿已久。15亿美元投资的消息进一步证实了这一观点。
LPU计划于2024年初推出。虽然其他潜在的Nvidia竞争对手专注于训练和推理,但Groq的目标非常明确:Groq是快速AI推理。通过与OpenAI兼容的API链接,该公司旨在吸引用户远离使用GPT-4o和o1等封闭模型。
语言处理单元(LPU)的开发由前谷歌TPU设计师Jonathan Ross领导。LPU于2024年初推出,可在线试用。与其他潜在的Nvidia竞争对手瞄准训练和推理相比,Groq的目标很明确:“Groq是快速AI推理”。得益于与OpenAI兼容的API连接,该公司的目标是让用户不再使用GPT-4o和o1等封闭模型。那么,与Meta和DeepSeek等公司合作的机会就很大了。
这已经表明,Groq可能并不打算直接与Nvidia竞争。自从我们一年前报道该公司以来,我们注意到像Groq这样的公司更愿意直接针对最终用户,而将硬件本身抽象出来。最终目标是尽可能降低延迟。如果您只是想在没有本地硬件的情况下快速运行Llama 3.3 70B,那么这可能是正确的产品。鉴于Groq没有提供有关主要硬件交易的明确信息,我们只能假设除了国家实验室的实验和通过其API接触Groq的客户之外,这样的交易并不多。
然而,LPU是另一个调整GPU以适应企业实际计算需求的例子。“Groq LPU架构始于软件优先原则”,该公司表示,这导致了专用于线性代数的芯片的诞生——“人工智能推理的主要要求”。实际上,编译器已经确定了芯片布局,没有路由器或控制器阻碍硬件与自身通信。用Groq的话来说,LPU是一条“装配线”或“传送带”,将数据从其各种片上内存模块和芯片中转移出来。这是为了避免该公司所谓的Nvidia的“中心辐射”方法所固有的GPU开销。
最终的结果是,该芯片能够达到750 TOPS。每个芯片包含230 MB的SRAM和80 TB/s的片上内存带宽。鉴于一个GroqChip只是GroqRack计算集群的一部分,这些基本规格最终并不是该公司最突出的。它最出名的就是快速推理。也许大规模的人工智能采用将使Groq找到自己的利基市场,并向世界展示它的成功。到目前为止,我们只能根据撰写本文时对基于Groq的LLM发出的1,425,093,318个请求来判断。
Meta欲收购韩国AI芯片公司Furiosa AI
据报道,Meta Platforms(Meta)正在考虑收购韩国AI半导体设计初创公司Furiosa AI。
11日(当地时间),美国经济媒体《福布斯》援引消息人士的话报道称,Meta正在商谈收购Furiosa AI事宜,谈判最早可能在本月完成。
Furiosa AI是一家设计数据中心AI半导体的无晶圆厂公司(专门从事半导体设计),由曾在三星电子和AMD任职的CEO白俊浩于2017年创立。继2021年推出首款AI半导体“Warboy”后,该公司于去年8月推出了下一代AI半导体“Renegade”(RNGD)。
目前已有多家企业对Furiosa AI表现出兴趣,据悉Meta是其中之一。有分析认为,Meta收购Furiosa AI是为了巩固自身AI芯片研发能力。
目前,Meta正花费巨额资金批量采购英伟达AI芯片,并与博通合作开发定制AI芯片。该公司今年计划投资高达650亿美元(约93万亿韩元),包括用于AI研究和新数据中心的建设。
Furiosa AI迄今已筹集约1.15亿美元(约1671亿韩元),并于本月初从风险投资公司Krit Ventures获得了额外的20亿韩元投资。Naver和DSC Investment参与了初始融资,据报道,首席执行官Baek Joon-ho持有该公司18.4%的股权。
OpenAI自研芯片,挑战Nvidia
大型科技公司和人工智能初创公司仍然在很大程度上依赖Nvidia的芯片来训练和运行最先进的人工智能模型。然而,这种情况可能很快就会改变。OpenAI正在带头开展一项大规模的全行业努力,将更便宜的定制人工智能加速器推向市场。如果成功,这一举措可能会削弱Nvidia在人工智能硬件领域的主导地位,使该公司陷入更艰难的市场。
OpenAI即将推出其首款定制设计的AI芯片。路透社预计,该公司将在未来几个月将芯片设计发送给台积电进行验证,然后于2026年开始量产。该芯片已进入流片阶段,但OpenAI可能需要大量员工才能在AI加速器市场实现完全自给自足。
这款定制芯片由Richard Ho领导的“小型”内部团队设计,他一年多前离开谷歌加入OpenAI。这个40人团队与Broadcom合作,Broadcom是一家备受争议的公司,在创建定制ASIC解决方案方面有着良好的记录。两家公司于2024年开始谈判以芯片为重点的合作伙伴关系,最终目标是打造新的AI芯片。
业内消息人士称,OpenAI的设计既可以训练也可以运行AI模型,但该公司最初只会将其有限量地用于AI推理任务。台积电将在其3nm技术节点上制造最终的芯片,OpenAI预计它将包含一定数量的高带宽内存,就像任何其他主要的AI(或GPU)硅片设计一样。
尽管在未来几个月内OpenAI的芯片在公司基础设施中只扮演次要角色,但在不久的将来,它可能会成为一股重大的颠覆性力量。新设计首先需要顺利通过流片阶段,而Ho的团队需要修复在初始制造测试中发现的任何硬件错误。
许多科技公司都在积极努力用自己的定制AI加速解决方案取代Nvidia产品,但这家GPU制造商仍占据着约80%的市场份额。微软、谷歌、Meta和其他大型科技巨头正在雇用数百名工程师来解决芯片问题,而OpenAI在时间和员工规模方面都排在最后。
简而言之,OpenAI需要的不仅仅是目前由Richard Ho领导的开发AI芯片原型的小型内部团队。在内部,该芯片项目被视为不断发展的AI领域未来战略举措的关键工具。在等待台积电的设计验证的同时,OpenAI工程师已经在计划更先进的迭代,以实现更广泛的应用。
英伟达的弱点,芯片公司群起而攻之
虽然没有哪家公司像Nvidia那样,市值飙升至数万亿美元,但IBM和(最近)英特尔等公司知道强者确实会衰落。当一个人处于巅峰时,自满情绪就会渗透进来。当Nvidia故事中所有关键人物都早早退休享受丰厚的退休金时,可能会发生人才流失。
Nvidia的另一个潜在弱点在于其实际产品:GPU。它们是功能极其强大的通用并行处理器。它们被设计为比世界上任何常见的处理器都更能处理并行化。然而,它们似乎已经达到了极限。最新的两代芯片(Ada Lovelace和Blackwell)已经达到了台积电的最大标线尺寸。
换句话说,实际硅片无法超越其当前规模。Blackwell应该通过融合芯片来解决这个问题,但这些已经导致了代价高昂的延迟。它们可能也会出现在下一代Rubin架构及以后的架构中。除此之外,GPU的运行方式存在固有的开销,而这些开销是潜在竞争对手无法削减的。GPU具有多面性,之所以被选为AI引擎,并不是因为它们被设计为高效处理GenAI工作负载,而是因为它们是手头上最接近的计算单元,而且具有可扩展性。
推翻Nvidia的道路是采用特定的GenAI中心架构。这种芯片本质上是为AI革命量身定制的,拥有随之而来的所有效率和速度。他们的主要优势是简单地摆脱所有GPU开销并砍掉使Nvidia硬件如此通用的任何不必要的硅片。有些公司正在寻求这样做。
一、Cerebras:晶圆级的“芯片上的模型”
Cerebras Systems做出的承诺确实很高。这家美国公司拥有“世界上最快的推理速度”——比GPU快70倍——已成为Nvidia最突出的替代品之一。如果有人认为Blackwell芯片很大,那就看看Cerebras的庞然大物吧。他们的处理器是“晶圆级”的。这意味着它们是矩形硅片,大小几乎与代工厂标准300毫米晶圆尺寸允许的大小相当。
单个Cerebras WSE-3带有44GB的片上内存,大约是Nvidia H100的880倍。真正的胜利是它的内存带宽。这通常是GenAI训练和推理的瓶颈:每秒21 PB,这个数字比H100高出七千倍。当然,这都是理论上的吞吐量。即使是所谓的同类基准测试也无法告诉您需要多少优化才能利用这些强大的规格。
Cerebras的客户名单令人印象深刻,但更让人对公司的未来充满信心。Meta、Docker、Aleph Alpha和纳斯达克等公司都在使用该公司的技术。这些可能与Cerebras的一项或多项产品有关。这些范围从包罗万象的AI模型服务到按小时付费或按模型付费的方案,以进行大规模训练、微调和/或推理。Llama 3.3系列模型、Mistral和Starcoder成为与Cerebras兼容的LLM的典范,并具有真正的影响力。
Cerebras极有可能还需要超过迄今为止在六轮融资中筹集的7.2亿美元的资金。考虑到Nvidia每年在研发上花费高达800亿美元,其晶圆级竞争对手最终的IPO可能会缩小这一差距。最终,性能和效率也可能对Cerebras有利。
显而易见的是,大量的片上内存使芯片设计比通过以太网或Nvidia自己的InfiniBand连接在一起的GPU集群更接近AI模型所需的营养。毕竟,权重和激活就在那里,以接近光速的速度提供,而不必通过相对缓慢的互连。我们在这里谈论的是纳秒的差异,但仍然是数量级的。当你把几个月的AI训练和推理加在一起时,这种差距就变得巨大了。
二、SambaNova:数据是关键
另一个挑战者则走上了一条不同的架构路线:SambaNova。四年前,在ChatGPT出现之前,该公司已经积累了10亿美元。与Cerebras一样,目前的产品也直指Nvidia的GPU解决方案,并突出了其固有的AI缺陷。与此同时,SambaNova将其RDU(可重构数据流单元)列为“为下一代AI工作负载(称为Agentic AI)而构建”。换句话说,该公司围绕模型的计算图来组织其硬件,而不是依赖顺序指令。
据称,单个SN40L RDU的内存中可以容纳“数百个模型”。这归功于其庞大的1.5 TB DRAM、64GB同封装HBM和超高速520MB SRAM缓存。单个SN40L节点可以以每秒超过1TB的速度传输数据。从表面上看,Nvidia的最新一代GPU Blackwell已达到8 TB/s的速度。尽管如此,就目前情况而言,SambaNova声称其数据流架构可实现地球上Llama 3.1 405B上最快的推理速度。据该公司称,RDU在处理数据方面的内置效率意味着,在“一小部分占用空间”的情况下,可以获得比传统GPU更高的性能。
目前尚不清楚SambaNova在企业中的实际部署情况。阿贡国家实验室和劳伦斯利弗莫尔等国家实验室似乎很支持,一些专门针对医疗保健的公司也是如此。SambaNova的最终目标是为企业提供本地AI培训解决方案。尽管资金雄厚,但我们需要看到更多大牌公司涌向SambaNova,才能更加确定其长期可行性——无论是否通过官方公告。
三、Etched:一款主宰市场的transformer ASIC
与变压器模型最接近的类比是transformer ASIC。正如Nvidia挑战者Etched对其Sohu芯片的描述,变压器是“蚀刻在硅片上的”。它看起来很像GPU,其VRM围绕着硅片,呈矩形附加卡形状。8个变压器似乎比8个Nvidia B200 GPU的吞吐量要小,更不用说8个早期的H100了。最终结果是:使用Llama 70B每秒可处理500,000个令牌。
144GB HBM3E仅向单个“核心”提供数据,实际上是将LLM的架构转移到硅片上。据说支持甚至达到100万亿个参数模型,远远超出了目前最先进的LLM。完全开源的软件堆栈应该会吸引那些不愿意坚持使用Nvidia封闭的CUDA花园的人。
至关重要的是,Etched击中了Nvidia的痛处。如前所述,GPU已经达到了极限。如果不采用一些技巧,比如构建通常达不到硅片速度的互连,它们就无法发展。而且,对于一些竞争对手来说,它们并不像Etched所做的那样专注于算法。然而,有一件事仍不清楚,那就是搜狐究竟何时会出现。在2024年中期引起轰动之后,事情变得相当平静。
四、AMD、英特尔、谷歌、亚马逊……
我们应该注意其他一些更为人熟知的潜在Nvidia竞争对手。最明显的是AMD,它将其Instinct MI系列加速器打造为最接近Nvidia GPU的嵌入式产品。该公司的一些型号甚至将Instinct与Epyc集成到芯片设计中。这融合了GPU和CPU功能,可提供有前途的一体化AI套件。问题在于,其ROCm软件似乎未被充分采用和重视。CUDA占主导地位,Nvidia也是如此。为什么要为不像其竞争对手那样无处不在的芯片开发框架或模型管道?
英特尔也面临类似的问题,甚至更为严重。过去两年,英特尔的Gaudi GPU产品线并未产生推动AMD股价上涨的那种需求。除此之外,随着首席执行官帕特·基辛格(Pat Gelsinger)的离职,英特尔似乎失去了方向,在其他细分市场面临严峻挑战时,该公司在AI方面表现得毫无作为。如果没有业绩领先优势或AMD所拥有的挑战者地位,改变命运的希望就很渺茫。
与此同时,云提供商是Nvidia最大的客户之一。他们都希望摆脱对AI芯片巨头的依赖。他们正在通过打造自己的替代方案来实现这一目标。谷歌多年来一直这样做,其张量处理单元(TPU)是那些希望在云端运行AI的人的首选。然而,如果它们只能通过Google Cloud获得,它们就永远不会无处不在。
AWS令人印象深刻的Trainium芯片和Inferentia系列也是如此,它们都可通过AWS获得。这些产品也永远不会在亚马逊拥有的数据中心之外找到。谷歌和AWS(微软可能会效仿)需要构建一个开发人员堆栈来抽象架构。这通常意味着向Nvidia选项的可移植转变永远不会遥远。毕竟,只有当他们本来就有可能选择你的堆栈时,你才能吸引主要受众。
结论:看不到尽头
Nvidia的替代品还有很多。我们可以继续讨论Graphcore,自2023年出现可怕的消息以来,我们就没有再谈论过它。或者Tenstorrent,它正在开源RISC-V架构上构建AI芯片。上面看到的选择只是整个竞争环境的一小部分。在中国,也有寒武纪、海光、华为、燧原、摩尔线程、沐曦、天数智芯和壁仞等一批芯片公司对英伟达发起总攻。我们认为,在硬件领域,总有机会出现一个意想不到的候选人,就像DeepSeek在AI模型制作者竞赛中所做的那样。
我们将回到开始的地方。Nvidia在GenAI市场牢牢占据主导地位,尤其是在训练方面。尽管上述AI芯片初创公司展示了高标准,但我们没有看到任何可以阻止普通AI基础设施决策者购买Nvidia的东西。任何替代方案都必须以出色的效率承诺、绝对的性能冠军或两者兼而有之来向前迈进。
即便如此,现任者也不会轻易放手。Nvidia已经忙于渗透尚未涉足的AI领域。除了在消费机器领域的主导地位外,它现在还通过Project Digits提出了完全专用于GenAI的开发套件。与此同时,Jetson Nano服务于边缘部署。没有竞争对手,甚至连Nvidia最接近的竞争对手AMD都没有这种灵活性。这将帮助该公司渡过未来的风暴,即使它需要放弃GPU的全能地位才能取得进一步的成功。当你有(约)3万亿美元的市值支持时,转向专用的transformer/GenAI处理器是最容易做到的。