将英伟达拉下马，芯片公司出招

网页客服,欢迎咨询

联系我们

周一至周五：09:00-17:30
周六至周日：10:00-16:00

唐先生：15603012345

将英伟达拉下马，芯片公司出招

2024-09-17 21:51:44 6

管理

（原标题：将英伟达拉下马，芯片公司出招）

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自IEEE，谢谢。

很难夸大英伟达在AI领域的主导地位。成立于1993年的英伟达最初在个人计算机图形处理单元（GPU）领域崭露头角。然而，是公司的AI芯片，而非PC图形硬件，推动英伟达跻身全球最有价值公司之列。事实证明，英伟达的GPU在AI方面也表现出色。因此，其股价自2020年初以来已经增长了15倍以上，收入从2019财年约120亿美元跃升至2024年的600亿美元；这家AI巨头的领先芯片如沙漠中的水一样稀缺且备受追捧。

"获取GPU对AI研究人员来说已经成了巨大的担忧，以至于他们每天都在思考这个问题。因为没有它们，即使拥有最好的模型，他们也无法尽情发挥，”谷歌DeepMind的AI数据负责人詹妮弗·普伦德基（Jennifer Prendki）表示。普伦德基依赖英伟达的程度较少，因为谷歌拥有自己的AI基础设施。但其他科技巨头，如微软和亚马逊，是英伟达最大的客户之一，并继续以极快的速度购买其GPU。据新闻报道，美国司法部正在就英伟达芯片分配和获取问题进行反垄断调查。

英伟达在AI领域的主导地位，与机器学习的爆发一样，是最近的现象。但这种成功源自公司数十年来的努力，旨在将GPU建立为除渲染图形外对其他任务也有用的通用计算硬件。这一努力不仅包括公司GPU架构的演变，后者现在拥有能够加速AI工作负载的“张量核心”，还包括其软件平台CUDA，这为开发人员利用硬件优势提供了支持。

“他们确保每个从大学毕业的计算机科学专业学生都掌握了CUDA编程，”Moor Insights & Strategy的数据中心首席分析师Matt Kimball说。“他们提供工具和培训，并在研究上投入了大量资金。”

CUDA于2006年发布，帮助开发人员使用英伟达GPU的众多核心。这在加速高度并行的计算任务（包括现代生成式AI）方面至关重要。英伟达在建立CUDA生态系统上的成功使其硬件成为AI开发的最小阻力路径。虽然英伟达芯片供不应求，但比AI硬件更难找到的，可能是经验丰富的AI开发人员——而许多开发人员都熟悉CUDA。

这给了英伟达一条深厚且广泛的护城河来保护其业务，但这并不意味着它缺少准备进攻的竞争对手，这些对手的策略各不相同。虽然像AMD和英特尔这样的老牌公司正在试图使用他们自己的GPU来挑战英伟达，但像Cerebras和SambaNova这样的初创公司已经开发出能够显著提高生成式AI训练和推理效率的创新芯片架构。它们是最有可能挑战英伟达的竞争对手。

AMD：另一位GPU制造商

优势：AMD的GPU是说服力十足的英伟达替代品
劣势：软件生态系统无法与英伟达的CUDA相抗衡

在图形芯片领域，AMD与英伟达的战斗已持续了近二十年。这是一场有时不平衡的竞争。在图形处理方面，AMD的GPU在销售和心智占有率上很少击败英伟达。然而，AMD的硬件有其优势。公司的广泛GPU产品组合涵盖了从笔记本电脑的集成图形到拥有1500亿个晶体管的AI专用数据中心GPU。该公司还早期支持并采用了高带宽内存（HBM），这是如今全球最先进GPU所必需的一种内存形式。

“如果你看硬件……它与英伟达相比并不逊色，”Kimball说道，他指的是AMD的Instinct MI325X，这是一款英伟达H100的竞争对手。“AMD在这款芯片的设计上做得非常出色。”

MI325X计划于今年年底推出，拥有超过1500亿个晶体管和288GB的高带宽内存，尽管其在实际应用中的表现尚待验证。MI325X的前身MI300X获得了微软的好评，微软使用包括MI300X在内的AMD硬件来处理部分ChatGPT 3.5和4的服务。Meta和戴尔也部署了MI300X，Meta在其最新的大语言模型Llama 3.1的部分开发中使用了这些芯片。

AMD仍有一个障碍需要克服：软件。AMD提供了一个开源平台ROCm来帮助开发人员为其GPU编程，但它的人气不如CUDA。AMD意识到了这一弱点，并在2024年7月同意收购欧洲最大的私有AI实验室Silo AI，该实验室在使用ROCm和AMD硬件进行大规模AI训练方面有经验。AMD还计划收购ZT Systems，一家在数据中心基础设施方面拥有专长的公司，以帮助AMD更好地为部署其硬件的客户服务。打造一个能够与CUDA匹敌的对手绝非易事，但AMD正在全力以赴。

英特尔：软件成功

优势：Gaudi 3 AI加速器表现强劲
劣势：下一款大AI芯片要到2025年底才会推出

英特尔的挑战与AMD相反。英特尔缺乏英伟达的CUDA和AMD的ROCm的直接匹配产品，但其于2018年推出了一个开源统一编程平台OneAPI。与CUDA和ROCm不同，OneAPI涵盖多个类别的硬件，包括CPU、GPU和FPGA。因此，它可以帮助开发人员在任何英特尔硬件上加速AI任务（以及其他任务）。

另一方面，硬件是一个弱点，至少与 Nvidia 和 AMD 相比是如此。英特尔的 Gaudi AI 加速器是英特尔2019 年收购 AI 硬件初创公司 Habana Labs的成果，取得了进展，最新的Gaudi 3 的性能可与 Nvidia 的 H100 相媲美。

然而，目前尚不清楚英特尔的下一代硬件版本究竟会是什么样子，这引起了一些担忧。Moor Insights & Strategy 创始人帕特里克·穆尔黑德 (Patrick Moorhead ) 表示：“Gaudi 3 非常强大。”但他表示，截至 2024 年 7 月，“还没有 Gaudi 4”。

相反，英特尔计划转向一款雄心勃勃的芯片，代号为 Falcon Shores，该芯片采用基于区块的模块化架构，结合了英特尔x 86 CPU 内核和 Xe GPU 内核；后者是英特尔最近进军图形硬件领域的一部分。不过，英特尔尚未透露有关 Falcon Shores 架构和性能的详细信息，预计要到 2025 年底才会发布。

Cerebras：越大越好

优点：晶圆级芯片每颗芯片提供强大的性能和内存
缺点：由于尺寸和成本，应用领域有限

可以肯定的是，AMD和Intel是Nvidia最具可信度的挑战者。它们在设计成功芯片和构建编程平台方面有着悠久的历史。但在规模较小、未经验证的玩家中，有一个脱颖而出：Cerebras。

这家公司专注于超级计算机的AI，于2019年推出了Wafer Scale Engine，这是一块巨大的晶圆级硅片，拥有1.2万亿个晶体管。最新版本Wafer Scale Engine 3将这一数字提升到了4万亿个晶体管。作为比较，Nvidia最新最大的GPU——B200，"仅"拥有2080亿个晶体管。Cerebras围绕这个晶圆级怪物构建的计算机CS-3，正是Condor Galaxy 3的核心，该超级计算机将由64台CS-3组成，处理高达8 exaflop的AI计算任务。G42，一家总部位于阿布扎比的企业集团，计划使用该系统训练未来的前沿大型语言模型。

“这有点偏向于特定的应用，而不是通用型的，”Bernstein Research的高级分析师Stacy Rasgon说。“并不是每个人都会购买这些计算机。但他们有一些客户，比如美国国防部和Condor Galaxy 3超级计算机。”

Cerebras的WSC-3在大多数情况下不会挑战Nvidia、AMD或Intel的硬件；它太大、太昂贵、太专业化了。但它可能在超级计算机领域为Cerebras提供独特优势，因为没有其他公司设计晶圆规模的芯片。

SambaNova：

为Transformer而生的变形架构

优点：可配置的架构有助于开发人员优化AI模型的效率
缺点：硬件还需要证明对大众市场的相关性

成立于2017年的SambaNova是另一家利用非传统芯片架构解决AI训练问题的芯片设计公司。其旗舰产品SN40L采用公司所谓的“可重构数据流架构”，由存储器和计算资源的模块组成。这些模块之间的连接可以根据需要进行动态调整，以促进大型神经网络的数据快速传输。

Prendki认为，这种可定制的硅片在训练大型语言模型时可能会非常有用，因为AI开发人员可以根据不同的模型来优化硬件。没有其他公司提供这样的功能。

SambaNova还通过其配套的软件栈SambaFlow取得了成功。Moorhead说：“在基础设施层面，SambaNova的平台表现出色。”SambaFlow可以分析机器学习模型，并帮助开发人员重新配置SN40L以加速模型的性能。虽然SambaNova还有很多要证明的地方，但其客户包括软银和模拟器件公司。

Groq：专注于功能

优点：出色的AI推理性能
缺点：目前仅限于推理应用

另一家在AI硬件上有独特创新的公司是Groq。Groq的策略是紧密结合内存和计算资源，以加速大型语言模型对提示的响应速度。

“他们的架构非常注重内存。内存与处理器紧密耦合。你需要更多的节点，但每个token的价格和性能简直疯狂，”Moorhead说道。“token”是模型处理的基本数据单位；在大型语言模型中，通常是一个词或部分词。更令人印象深刻的是，Groq的芯片——语言处理单元推理引擎——采用的是GlobalFoundries的14纳米技术，而这已经是比用于制造Nvidia H100的台积电技术落后几代的工艺。

2023年7月，Groq展示了其芯片的推理速度，运行Meta的Llama 3 80亿参数大型语言模型时，每秒超过1250个token。这一表现甚至超过了SambaNova的演示，其推理速度超过每秒1000个token。

高通：功耗至上

优点：广泛的AI功能芯片组合
缺点：缺少用于AI训练的大型前沿芯片

高通以Snapdragon系统级芯片闻名，这款芯片为诸如三星Galaxy S24 Ultra和OnePlus 12等流行的安卓手机提供动力。高通是一家可以与AMD、Intel和Nvidia抗衡的巨头。

但与这些竞争对手不同，高通将其AI战略更多地集中在特定任务的AI推理和能效上。AI基准组织MLCommons的创始成员、AI优化公司Krai的CEO Anton Lokhmotov表示，高通在关键的基准测试中显著提高了其Qualcomm Cloud AI 100服务器的推理能力。在ResNet-50图像分类基准测试中，这些服务器的性能从180样本/瓦提升至240样本/瓦，使用的硬件基本保持不变。

在设备上处理本地AI任务而无需连接到云端的高效AI推理也是一个优势，Lokhmotov说。一个典型例子是微软的Copilot Plus PC。微软和高通与戴尔、惠普和联想等笔记本制造商合作，首批配备高通芯片的Copilot Plus笔记本电脑已于7月上市。高通还在智能手机和平板电脑市场占据强大地位，其Snapdragon芯片为三星、OnePlus和摩托罗拉等设备提供动力。

高通还是AI驾驶辅助和自动驾驶平台的主要玩家。2024年初，现代旗下的Mobius部门宣布与高通合作，使用Snapdragon Ride平台——该平台是Nvidia Drive平台的竞争对手——用于高级驾驶辅助系统。

超大规模数据中心：

为功耗定制智能

优点：垂直整合有助于设计
缺点：超大规模数据中心可能会优先满足自身需求和使用

超大规模数据中心（Hyperscalers）——那些部署硬件规模庞大的云计算巨头——与“大科技”同义。亚马逊、苹果、谷歌、Meta和微软都希望尽快部署AI硬件，既用于自身使用，也为其云计算客户服务。为加速这一进程，他们都在内部设计芯片。

谷歌比竞争对手更早投资于AI处理器：该公司于2015年首次宣布的Tensor Processing Units（TPU）如今支撑着其大部分AI基础设施。第六代TPU Trillium于2023年5月宣布，并成为谷歌AI超级计算机的一部分，这是一项针对公司处理AI任务的云服务。

Prendki说，谷歌的TPU为公司在追求AI机会时提供了优势。“我很幸运，不用费心考虑芯片从哪里来，”她说。然而，TPU的使用并没有完全消除供应紧张，因为谷歌的不同部门仍然需要共享资源。

谷歌已经不再孤单。亚马逊拥有两款自研芯片，Trainium用于训练，Inferentia用于推理。微软拥有Maia，Meta拥有MTIA，而据传苹果也在开发处理其云基础设施中AI任务的硅片。

这些超大规模数据中心的芯片并未直接与Nvidia竞争，因为他们不向客户销售硬件，但他们确实通过云服务提供硬件访问，比如谷歌的AI超级计算机、亚马逊的AWS和微软的Azure。在许多情况下，超大规模数据中心提供的服务既运行在自家硬件上，也运行在Nvidia、AMD和Intel的硬件上；而微软则被认为是Nvidia的最大客户。

中国芯片：不确定的未来

另一类竞争者的诞生并非源自技术需求，而是地缘政治现实。美国对AI硬件出口的限制阻止了芯片制造商向中国公司出售最新、最强大的芯片。作为回应，中国公司正在设计自有AI芯片。

国内科技巨头所推出的加速器是Nvidia H100的替代品，然而，代工厂的产量问题据称限制了供应，此外，巨头还在销售“AI一体机”解决方案，旨在为中国企业提供本地化的AI基础设施。

为了绕过美国的出口管制规定，中国行业可能会转向替代技术。例如，中国研究人员在光子芯片方面取得了进展，这种芯片利用光而不是电荷来进行计算。“光束的优势在于你可以让两束光交叉，”Prendki说道。“因此，它减少了在硅芯片上通常遇到的限制，不能交叉路径。你可以使电路更复杂，且成本更低。”虽然光子芯片仍处于非常早期的阶段，但中国的投资可能会加速其发展。

更多空间

显然，Nvidia 并不缺乏竞争对手。同样明显的是，在未来几年内，没有一家竞争对手能够挑战 Nvidia，更别说击败它了。本文采访的所有人都同意，Nvidia 目前占据着无与伦比的主导地位，但这并不意味着它将永远排挤竞争对手。

“听着，市场需要选择，”Moorhead 说。“如果到 2026 年，我无法想象 AMD 的市场份额会低于 10% 或 20%，英特尔也是如此。通常，市场喜欢三家公司，而我们有三个合理的竞争对手。”Kimball 表示，与此同时，超大规模公司可能会挑战 Nvidia，因为他们将更多的 AI 服务转移到内部硬件上。

然后还有不确定因素。Cerebras、SambaNova 和 Groq 是众多初创公司中的佼佼者，它们希望通过新颖的解决方案蚕食 Nvidia 的市场份额。此外，还有数十家其他公司加入其中，包括 d-Matrix、Untether、Tenstorrent和Etched，它们都寄希望于针对生成式 AI 优化的新芯片架构。这些初创公司中可能有许多会失败，但也许下一个 Nvidia 会从幸存者中脱颖而出。

https://spectrum.ieee.org/nvidia-ai

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3888内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

上一页：GaN，新拐点? 下一页：Chiplet，如何破壁？

全部评论(0)