订阅
纠错
加入自媒体

黄仁勋GTC完整演讲:生成Token的成本与效率,决定科技企业的营收与生死

图片

 

作者|常远

编辑|重点君

3月17日凌晨,2026年英伟达GTC大会在圣何塞正式开幕。黄仁勋表示,要支撑未来数兆美元规模的智能经济,必须从系统工程的视角重新设计整个计算堆栈。英伟达正试图通过全面掌控能源、芯片、基础设施、模型、应用这五层蛋糕,完成从芯片制造商到AI时代发电商的历史性蜕变。

而对于AI时代进程的判断,黄仁勋抛出了一个极其宏大的产业愿景:单纯的数字生成时代正在走向深化,我们正在迎来物理AI的大爆炸以及代理式AI的全面普及。如果说过去几年AI只是在屏幕内作答,那么从2026年开始,AI将拥有在三维物理世界中行动与交互的实体能力,并具备自主执行复杂任务的代理系统。英伟达正试图通过软硬一体化的全栈生态,再次重新定义计算基础设施。

我们梳理了这场发布会的核心信息,以下是重点内容:

1. 算力需求重估:到2027年计算市场规模将突破1万亿美元

黄仁勋在演讲中为AI基础设施的未来需求定下了基调:到2027年,全球计算需求将突破1万亿美元大关。他强调,在这个全新的AI时代,Token(词元)就是新的基础货币。生成Token的成本与效率直接决定了科技企业的营收与生死。英伟达致力于打造全球每Token成本最低的计算方案,因为这关乎整个行业运转的经济学底层逻辑。

2.加速计算才是时代答案:Vera Rubin平台全面接棒计算霸权

面对外界对摩尔定律终结的探讨,黄仁勋给出的答案是不断进化的加速计算架构。继Blackwell之后,下一代Vera CPU + Rubin GPU架构(Vera Rubin Ultra)正式成为全场焦点。

这一专为AI代理系统打造的平台展现了惊人的扩展能力,能够在一个系统中连接多达144个GPU,并实现了硬件与软件的彻底垂直整合。在能效与回报率方面,这一新架构的潜力令人侧目,结合全面普及的液冷技术(Liquid Cooling)和封装光学器件(Co-packaged optics),新架构不仅极大优化了能耗比,更被预期能为企业带来高达5倍的营收产出比,进一步巩固了英伟达在数据中心领域的绝对统治力。

3. 巩固图图形与生态护城河:CUDA二十周年积累数亿GPU装机,DLSS 5也快来了

除了硬核的AI基建,英伟达的传统艺能同样在持续进化。时值CUDA生态诞生20周年,CUDA已在全球范围内累积了数亿GPU的装机量,并渗透进了每一个技术生态中,飞轮正在以前所未有的速度加速运转。同时,大会还透露了处于研发前沿的DLSS 5技术,预示着基于神经渲染的技术迭代将再次颠覆AI驱动的图形和高端游戏体验。

4. 押注代理式AI:推出NemoClaw,构建AI Agent的专用操作系统

在软件与生态侧,英伟达正式推出了NemoClaw参考堆栈。这相当于为代理式计算机打造了一个专用的操作系统底座。借助NemoClaw,开发者能够在保障底层隐私与安全的前提下,通过简单的指令快速构建、部署和加速属于自己的个性化AI Agent。这标志着AI的交互逻辑正在发生根本性转变:从被动响应的对话工具,进化为具备自主规划和执行能力的超级个人助理。

5.物理AI大爆炸:从自动驾驶到具身智能的全面落地

通用语言模型并不是智能的终点,真正的下一代AI必须拥有物理躯壳。黄仁勋强调了物理AI(Physical AI)的概念,AI必须学会理解重力、摩擦力以及复杂的三维物理空间。

在自动驾驶领域,比亚迪、现代、日产等头部车企已纷纷加入英伟达的Robotaxi就绪平台;而在通用机器人领域,英伟达发布了专为人形机器人打造的通用基础模型 Project GR00T。它能够让机器人通过观察人类行为来学习自然语言和模仿动作。此外,英伟达还大幅更新了Isaac机器人平台,推出了专为机械臂控制和3D视觉环境感知打造的全新软硬件库。英伟达与迪士尼幻想工程合作打造的《冰雪奇缘》雪宝(Olaf)实体机器人也踏上GTC舞台,与黄仁勋亲密互动。

在演讲的最后,黄仁勋的愿景已不再局限于传统的硬件厂商范畴,英伟达正在构建统治下一个时代的AI工厂。从底层的Vera Rubin超算集群,到NemoClaw代理操作系统,再到物理机器人生态,英伟达正试图包揽AI赋能现实世界的每一层基础设施,让加速计算像一百多年前的电力一样,彻底融入人类文明的日常运转之中。图片

 以下为黄仁勋演讲内容全文:

1. 欢迎来到GTC:探讨AI生态与“五层蛋糕”架构

欢迎来到GTC!我只想提醒大家,这是一场技术大会。这么多人在清晨就排起了长队,很高兴见到在座的各位。在GTC我们将探讨技术与平台。NVIDIA拥有三大平台,大家可能以为我们主要讨论的是CUDA X,但系统是我们的另一个平台,现在我们还有一个名为AI Factories的新平台。我们将讨论所有这些内容,但最重要的是我们要讨论生态系统。

在开始之前,我要感谢赛前节目主持人Sarah Go和Alfred Lin,以及NVIDIA的首家风险投资机构Sequoia Capital的Gavin Baker。作为首位主要机构投资者,他们深耕技术领域,洞悉行业动态,拥有广泛的技术生态系统。当然也要感谢我亲手挑选并邀请的各位全明星VIP嘉宾,此外我还要感谢所有到场的赞助公司。NVIDIA是一家平台公司,拥有技术、平台以及丰富的生态系统。今天这里汇聚了全球100万亿美元产业的代表,共有450家公司赞助了本次活动,拥有一千场技术分会和2000位演讲嘉宾。

本次大会将涵盖人工智能五层蛋糕架构的每一层,从土地、电力和建筑等基础设施,到芯片、平台和模型,而最终让整个行业腾飞的将是所有的应用程序。

2. CUDA问世20周年:庞大装机量驱动飞轮效应

一切都始于这里,今年是CUDA问世20周年。20年来我们一直致力于这一架构的研发。这项革命性的发明通过单指令多线程编写标量代码即可衍生出多线程应用,这比SIMD更容易编程。我们最近还添加了Tiles,以帮助开发者对Tensor Core及当今人工智能基础数学结构进行编程。目前已有数千个工具、编译器、框架、库和数十万个公开的开源项目,CUDA已经深度集成到每一个生态系统中。最难实现的一点是庞大的装机量。

我们花了20年时间在全球构建起数以亿计运行CUDA的GPU和计算系统,覆盖了每一个云平台和计算机公司,服务于几乎所有行业。CUDA的装机量正是推动飞轮加速转动的核心动力。装机量吸引了开发者,开发者随后创造出如深度学习等实现突破的新算法。这些突破催生了全新市场并建立起新的生态系统,吸引更多公司加入,从而创造了更大的装机量。这种飞轮效应目前正在加速,NVIDIA库的下载量正以惊人的速度增长。这种效应不仅让计算平台能支持众多应用和突破,还赋予了基础设施极长的使用寿命。

有如此多的应用可以在NVIDIA CUDA上运行,我们支持AI生命周期的每个阶段和每个数据处理平台,加速各种基于科学原理的求解器。正因应用范围如此之广,一旦安装NVIDIA GPU,其使用寿命周期就极长。这也是为什么早在六年前出货的Ampere架构在云端的定价依然在上涨。高装机量、显著的飞轮效应和极广的开发者覆盖范围,加上我们持续更新软件,使得计算成本不断下降。加速计算极大提升了应用速度,随着我们在软件生命周期内的持续培育和更新,用户不仅能获得初次使用的性能提升,还能获得加速计算带来的持续成本降低。因为装机量庞大,我们发布的新优化方案能惠及数以百万计兼容架构的GPU,覆盖全球用户。动态组合扩大了NVIDIA架构的影响力,加速增长的同时降低了计算成本并促进新增长,这就是CUDA的核心价值。

但我们的旅程实际上始于25年前的GeForce。GeForce是NVIDIA最伟大的营销活动,许多人是伴随它长大的。早在你们自己负担得起之前,父母就付钱让你们成为了NVIDIA的客户,直到有一天你们成为出色的计算机科学家和真正的开发者。GeForce造就了今天的NVIDIA并孕育了CUDA。25年前我们发明了全球首款可编程加速器——像素着色器,旨在让加速器具备可编程性。5年后CUDA诞生了。我们当年倾尽全公司利润所做的最大投资,就是凭借GeForce将CUDA推广到每台电脑上。历经20年和13代产品,CUDA现已无处不在。十年前我们推出了RTX,针对现代计算机图形时代彻底重新设计了架构。GeForce将CUDA推向世界,也让众多先驱发现GPU是加速深度学习的良师益友,从而开启了AI大爆炸。十年前我们决定融合可编程着色技术并引入硬件光线追踪,当时我们就认为AI将彻底变革计算机图形学。正如GeForce将AI带给世界,现在AI将反过来彻底变革计算机图形学。

今天我将展示下一代图形技术——神经渲染,这是3D图形与人工智能的融合,也就是DLSS 5.0。我们融合了可控的3D图形、虚拟世界的结构化数据与生成式AI的概率计算。结构化数据完美受控,结合生成式AI,创造出精美令人惊叹且具备可控性的内容。这种将结构化信息与生成式AI融合的概念将接连不断地影响各个行业,结构化数据正是值得信赖的AI的基石。

接下来我们要详细探讨结构化数据。大家熟知的SQL、Spark、Pandas、Velox以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery等超大型平台都在处理数据框。这些数据框是巨大的电子表格,保存着企业计算和业务的单一真值。过去我们努力加速结构化数据处理,以更低成本和更高频率让公司高效运行。未来AI将以极快的速度使用这些结构化数据库。除此之外,还有代表全球绝大部分信息的非结构化生成式数据库,如向量数据库、PDF、视频和演讲等。每年生成的90%的数据都是非结构化数据。直到现在由于缺乏简便的索引方式且难以理解其含义,这些数据一直无法被高效查询和搜索。

现在我们让AI来解决这个问题。利用多模态感知与理解技术,AI能够阅读PDF并理解其含义,将其嵌入到可搜索和查询的更大结构中。为此NVIDIA创建了两个基础库:用于数据框和结构化数据的cuDF,以及用于向量存储和非结构化AI数据的cuVS。这两个平台将成为未来最重要的平台,我们正将其深度融入全球复杂的数据处理系统网络中。

3. 赋能全球企业与云服务:AI时代的加速计算

今天我们将发布几项重要合作。IBM作为领域特定语言SQL的发明者,正在使用cuDF加速watsonx的数据处理。60年前IBM推出了开启计算时代的System/360,随后SQL和数据仓库构成了现代企业计算的基石。今天IBM与NVIDIA正通过利用GPU计算库加速watsonx.data的SQL引擎,为AI时代重新定义数据处理。由于当前CPU数据处理系统已无法满足AI对海量数据集的快速访问需求,企业必须转型。例如雀巢每天要做数千次供应链决策,在CPU上每天只能刷新几次汇总了全球交付事件的订单到现金数据集市,而在NVIDIA GPU上运行加速的watsonx后,速度提升了5倍且成本降低了83%。

AI时代的加速计算已经到来。我们不仅加速了云端数据处理,也加速了本地部署。全球领先的系统和存储制造商Dell与我们合作,将cuDF和cuVS集成到Dell AI数据平台中以迎接AI时代。我们还与Google Cloud合作加速了Vertex AI和BigQuery。在与Snapchat的合作中,我们将其计算成本降低了近80%。当你加速计算和数据处理时,不仅获得了速度和规模优势,最重要的是获得了成本优势。摩尔定律的核心是性能每隔几年翻倍,但它现在已经后劲不足。加速计算让我们能够实现跨越。

NVIDIA作为一家算法公司,凭借广泛的市场触达和庞大的装机量,通过持续优化算法不断降低计算成本,为大家扩大规模并提升速度。NVIDIA构建了加速计算平台并提供RTX、cuDF、cuVS等一系列库,最终将其集成到全球的云服务和OEM厂商中触达全球。这种合作模式正在Google Cloud、Snapchat等平台上不断重复。我们为在JAX、XLA和PyTorch上所做的出色工作感到自豪。我们是全球唯一在这些框架上都表现卓越的加速器。像Baseten、CrowdStrike、Puma、Salesforce等不仅是我们的客户也是开发者。

我们将NVIDIA技术整合到他们的产品中,并将他们带入云端。我们与云服务提供商的关系本质就是为他们带来客户。大多数云服务提供商都非常乐意与我们合作,因为我们将源源不断地为所有人提供加速。最后,今年让我非常兴奋的一件事是,我们将把OpenAI引入AWS,这将带动AWS云计算的巨大消耗并扩展OpenAI的计算能力。

在AWS,我们加速了EMR、SageMaker和Bedrock。NVIDIA与AWS进行了深度集成,他们也是我们的首个云合作伙伴。在Microsoft Azure方面,我们为其打造并安装了首台NVIDIA A100超级计算机,这为后来与OpenAI的巨大成功合作奠定了基础。我们与Azure的合作由来已久,不仅为其云服务和Bing Search提供加速,还与他们的AIFoundry开展了深度合作。随着AI在全球范围内的扩展,Azure Regions的合作也变得极其重要。我们提供的一项核心功能是机密计算(Confidential Computing)。机密计算能够确保操作员无法触碰或查看数据和模型。NVIDIA GPU是全球首款实现该功能的GPU,它能够支持并在不同云端和地区安全部署OpenAI和Anthropic等极其宝贵的模型。这一切都要归功于至关重要的机密计算技术。

在客户合作方面,Synopsis是我们的重要合作伙伴,我们正在加速其所有的EDA和CAU工作流,并落地于Microsoft Azure。我们既是Oracle的首家供应商,也是他们的首位AI客户。让我非常自豪的是,我首次向Oracle解释了AI云的概念,并成为了他们的首位客户,从那时起Oracle便开始腾飞。我们在那里落地了包括Quark、Cohere、Fireworks以及OpenAI在内的一大批合作伙伴。CoreWeave是全球首个AI原生云,其建立的核心目标就是在加速计算时代提供并托管GPU,为AI云提供托管服务。他们拥有出色的客户群,并且增长速度惊人。

我还非常看好Palantir和Dell平台。我们三家公司共同努力打造了一种全新类型的AI平台——Palantir Ontology平台。该平台可以在任何国家、任何物理隔离(air-gapped)区域实现完全本地化的现场部署。AI几乎可以部署在任何地方。如果没有我们的机密计算能力,没有我们构建端到端系统以及提供整个加速计算和AI堆栈的能力(涵盖从向量或结构化数据处理到AI时代的完整流程),这一切都不可能实现。这些例子展示了我们与全球云服务提供商之间的特殊合作关系,他们今天都在现场,我由衷感谢大家的辛勤付出。

图片

4.NVIDIA的公司特质:垂直整合但同时横向开放

NVIDIA是一家垂直整合但同时横向开放的公司,这是大家会反复看到的主题。其必要性非常简单:加速计算不仅仅是芯片或系统的问题,它的核心在于应用加速。如果只是让电脑运行得更快,那是CPU的工作,但CPU已经后劲不足了。未来实现巨大性能提升和成本降低的唯一方式,就是通过应用或特定领域的加速来实现,即应用加速计算。因此NVIDIA必须针对不同的垂直行业和领域,开发一个又一个的库。

作为一家垂直整合的计算公司,我们别无选择,必须深入理解应用、领域和算法的底层逻辑。我们还必须弄清楚如何将算法部署在数据中心、云端、本地(on-prem)、边缘端或机器人系统等各种截然不同的计算系统中。从底层芯片到系统,我们实现了垂直整合。而NVIDIA之所以无比强大,是因为我们横向开放。我们致力于将NVIDIA的软件、库和技术与合作伙伴的技术相结合,集成到任何目标平台中,从而将加速计算带给世界上的每一个人。本次GTC大会正是这一理念的绝佳展示。

目前我们拥有触达各大垂直领域的领域特定库,以解决各行各业的关键问题。例如在金融服务业(这也是本届GTC参会人数最多的群体),算法交易正从依赖人类进行特征工程的传统机器学习,转向由超级计算机分析海量数据并自动发现洞察与模式,这正是金融业的深度学习和Transformer时刻。医疗保健行业也迎来了ChatGPT时刻。我们正在将AI物理学和AI生物学应用于药物研发,并开发用于客户服务和辅助诊断的AI Agent。

在工业领域,我们正在开启人类历史上规模最大的扩建工程,全球大多数行业都在建造AI工厂,今天也有许多芯片和计算机制造厂的代表来到现场。在媒体与娱乐方面,实时AI平台正在支持翻译、广播、直播游戏和视频,绝大部分内容都将通过AI进行增强。在量子计算领域,有35家公司正利用我们的Holoscan平台构建下一代量子GPU混合系统。零售和消费品(CPG)行业正利用NVIDIA优化供应链,并构建代理式购物系统和客服AI Agent,这是一个价值35万亿美元的庞大市场。

在规模达50万亿美元的制造业机器人领域,NVIDIA已深耕十年,构建了重建机器人系统所需的基础计算机,并与所有主流机器人制造公司展开合作,此次展会我们就展出了110台机器人。电信行业的规模约为2万亿美元,其遍布全球的基站作为上一代计算时代的基础设施,即将迎来彻底重塑。未来的基站将成为AI基础设施平台,让AI在边缘运行。我们的Aerial(即AIRAN)平台正在与Nokia、T-Mobile等多家公司开展重大合作。

在这一切的核心是我们自主发明的CUDA-X库算法,这是NVIDIA作为一家算法公司的立身之本,也是我们区别于其他公司的特别之处。算法让我们能够深入各个行业,将世界顶尖计算机科学家解决问题的方法重构并转化为库。在本次展会上,我们将发布大量库和模型,这些不断更新的库是我们公司的瑰宝,它们激活了计算平台,真正解决了实际问题。比如引发现代AI大爆发的cuDNN,以及用于决策优化的cuOPT、计算光刻的cuLitho、直接稀疏求解器的cuDSS、基因组学的Parabricks等上千个CUDA-X库,正助力开发者在科学和工程领域取得突破。大家所看到的一切都不是人工动画,而是基于基础物理求解器、AI物理模型和物理AI机器人模型的完全模拟。凭借对算法的理解与计算平台的结合,NVIDIA作为一家垂直整合且横向开放的公司,正不断解锁新机遇。

如今除了传统巨头,还涌现了一大批像OpenAI、Anthropic这样的AI原生(AInative)初创公司。随着计算被重新发明,创投圈向初创企业投入了史无前例的1500亿美元资金。因为历史上第一次,这些公司全都需要庞大的算力和海量的Token,他们要么自己生成Token,要么为现有的Token增值。正如PC、互联网和移动云时代诞生了Google、Amazon和Meta一样,我们正处于新平台转型的开端,必将涌现出对未来具有重大影响力的新公司。

过去两年的爆发源于三大里程碑。首先,ChatGPT开启了生成式AI时代,它不仅能感知和领悟,还能翻译并生成原创内容。其次,生成式计算彻底改变了计算的实现方式,从过去的基于检索转变为现在的生成式,这也深刻改变了计算机的架构和构建方式。第三是推理AI的崛起,O1和O3模型的出现让AI能够反思、独立思考、分解问题并进行自我验证,使生成式AI变得更值得信赖且基于事实。这种推理能力大幅增加了上下文输入和思考输出的Token使用量,显著提高了计算量需求。随后ClaudeCode作为首个智能体模型问世,它能够自动读取文件、编写代码、编译测试并迭代,彻底变革了软件工程。

我们有100%的员工正在使用ClaudeCode、Codex和Cursor等运行在NVIDIA上的AI工具来辅助编写代码。现在,你不再需要询问AI该做什么,而是直接让它结合上下文去创作、执行和构建。AI已经从感知进化到生成,再到推理,如今已经能够真正开展高效的工作。正因为AI终于能够进行生产性工作,过去两年市场对NVIDIAGPU的计算需求彻底爆表,尽管我们已经大量出货,但需求仍在持续攀升。

AI现在必须思考、行动并进行阅读,而要做到这些,它必须进行推理并进行逻辑推演。AI的每一个部分在思考、行动和生成Token时都必须进行推理。现在早已过了训练阶段,我们正处于推理领域,推理的拐点已经到来。在这个时刻所需的计算量增加了大约10000倍。在过去的两年里计算需求增长了10000倍,而使用量可能增长了100倍。相信计算需求在过去两年里增长了一百万倍,这也是每一家初创公司、OpenAI和Anthropic的共同感受。如果他们能获得更多算力就能生成更多Token,营收就会增长,越先进的AI就会变得越聪明。

我们现在正处于这个正向飞轮系统中,推理的拐点已经到来。去年此时我说过到2026年Blackwell和Rubin的高置信度需求和采购订单总额将达到5000亿美元。虽然大家可能因为创下年度营收纪录而对这个数字不为所动,但我现在要告诉大家,到2027年这一数字将至少达到1万亿美元。事实上我们将面临算力短缺,计算需求将远高于此。

图片

5.NVIDIA的推理之年

我们在过去一年里做了大量工作,2025年是NVIDIA的推理之年。我们希望确保不仅擅长训练和后训练,而且在AI的每一个阶段都表现出色。对基础设施的投资可以长期扩展,NVIDIA基础设施使用寿命长且成本极低。毫无疑问NVIDIA系统是世界上成本最低的AI基础设施。去年的一切都是围绕推理AI展开的,这推动了拐点的到来。同时Anthropic和Meta的Llama等代表全球三分之一AI开源模型算力的平台都选择了NVIDIA。开源模型已接近前沿水平且无处不在。NVIDIA是当今世界上唯一能够跨越所有语言和AI领域运行的平台,涵盖生物学、计算机图形学、计算机视觉、语音、蛋白质、化学和机器人技术等领域。我们的架构从边缘到云端通用,使其成为成本最低且最值得信赖的平台。

面对一万亿美元的庞大基础设施规模,必须确保投资具有高性能、成本效益和长期使用寿命。你可以满怀信心地选择NVIDIA,无论部署在云端、本地还是世界任何地方,我们都能提供支持。我们现在是一个运行所有AI的计算平台,这已体现在业务中。我们60%的业务来自前五大超大规模云服务商,其中一部分用于内部AI消耗。推荐系统和搜索等内部工作负载正从传统方法转向深度学习和大语言模型,这些负载正向NVIDIA极具优势的GPU上迁移。通过与各大AI实验室合作并拥有庞大的原生生态系统,我们能将算力带入云端并被迅速消耗。另外40%的业务遍布区域云、主权云、企业、工业领域、机器人技术、边缘计算和超级计算系统等。AI广泛的触达范围和多样性正是其韧性所在,它现已成为一项基础技术和全新的计算平台变革。

我们的职责是继续推动技术进步。去年作为推理之年,我们在Hopper架构巅峰时冒着巨大风险进行了彻底重塑。我们决定将架构提升到全新水平,彻底重构系统以解耦计算并创造了NVLINK-72。其构建、制造和编程方式都发生了彻底改变。GraceBlackwell和NVLINK-72是一场巨大的赌注,感谢所有合作伙伴的辛勤努力。NVFP4不仅仅是精度上的提升,它代表了完全不同类型的TensorCore和计算单元。我们证明了可以在不损失精度的情况下进行推理并大幅提升性能和能效,同时还能将其用于训练。结合NVLINK-72、NVFP4、Dynamo、TensorRT-LLM以及一系列新算法,我们甚至投入数十亿美元建造了DGXCloud超级计算机来优化内核和软件栈。过去人们常说推理很简单,但实际上推理是终极难题,也是驱动收入的核心动力。对AI推理最全面的扫描数据显示每瓦特Token数至关重要。每个数据中心都受到功率限制,物理法则决定了1吉瓦的工厂不可能变成2吉瓦。因此必须在有限功率下产出最大数量的Token,力求处于效能曲线的顶端。

推理速度决定了响应速度,也就是单次推理的交互性。推理速度越快,能处理的上下文和思考的Token就越多,这等同于AI的智能程度和吞吐量。AI越聪明,思考时间变长,吞吐量就会随之降低。从现在起,全世界的每一位CEO都会将业务视作Token工厂并将其直接与收入挂钩。在给定功率下,更好的每瓦性能意味着更高的吞吐量和更多的Token产出。NVIDIA拥有全球最高的性能,摩尔定律原本预期带来1.5倍的提升,但我们实现了35倍的跨越。

去年我说GraceBlackwell和NVLink72的每瓦性能提升了35倍时没人相信,甚至有分析师认为我保留实力实际提升高达50倍。这使得我们的每Token成本成为全球最低。如果架构错误即使免费也不够便宜,因为建造并分摊一个吉瓦级工厂的成本高达400亿美元。必须部署最顶尖的系统以获得最佳成本效益。通过极致的协同设计,我们进行垂直整合并水平开放,将所有软件和技术打包给全球推理服务提供商。

例如Fireworks和Together等平台增长迅速,生产效能就是他们的一切。在我们更新软件后系统硬件不变的情况下,平均速度从每秒约700个Token提升到了接近5000个,整整提高了七倍。过去用于存储文件的数据中心现在已经变成了受功率限制的Token工厂。推理是新的工作负载,Token是新的商品,计算即收入。未来每一家云服务和AI公司都将思考其Token工厂的效能,这种智能将由Token来增强。

图片

 

6.算力十年跃迁与智能体超级引擎

回顾过去十年的发展,我们在2016年推出了全球首款专为深度学习设计的计算机DGX-1,八个Pascal架构GPU通过第一代NVLink连接提供170Teraflops算力。随后通过Volta架构引入NVLink交换机,将16颗GPU作为巨型GPU运行。随着模型增长数据中心需成为单一计算单元,于是Mellanox加入了NVIDIA。2020年推出的DGXA100SuperPOD结合了纵向与横向扩展架构。之后开启生成式AI时代的Hopper架构配备了FP8,而Blackwell通过NVLINK-72重新定义了AI超级计算,实现130TB/s的全对全带宽。

如今智能体系统的算力需求呈指数级增长。专为智能体AI设计的VeraRubin推进了计算领域的各个支柱,提供3.6Exaflops算力和每秒260Terabytes的全对全带宽。搭配专为编排设计的VeraCPU机架、基于BlueField-4的STX存储机架、提升能效的Spectrum-X交换机,以及增加Token加速器的Grock-3LPX机架,合力实现了每兆瓦35倍的吞吐量提升。这个包含七颗芯片、五台机架级计算机的全新平台,让算力在短短10年内提升了4000万倍。

过去介绍Hopper时我还能举起一颗芯片,但VeraRubin是一个需要整体优化的庞大系统。智能体系统最关键的是大语言模型的思考过程,模型不断增大对内存和存储系统产生了巨大压力,因此我们重新发明了存储系统。AI需要工具尽可能快地运行,为此我们打造了全新VeraCPU,它专为极高单线程性能设计,是全球唯一采用LPDDR5的数据中心CPU,能效比傲视群雄。该CPU旨在与机架其他部分协同进行智能体处理。VeraRubin系统已实现100%液冷,取消了线缆,安装时间从两天缩短至两小时。它使用45度温水冷却,大幅降低了数据中心的散热成本与能源消耗。这是目前世界上唯一构建到第六代的纵向扩展交换系统,实现难度极高。此外采用共封装光学技术的Spectrum-X交换机也已全面量产,光子直接连接芯片硅片,工艺完全是革命性的。VeraCPU作为独立产品已成为价值数十亿美元的业务。

这四个机架组成的系统通过结构化布缆构建,极为高效。而RubinUltra计算节点则更进一步,安装进名为Kyber的全新机架中,可在一个NVLINK域中连接144个GPU。计算节点垂直插入中板,不再受限于铜缆的驱动距离,背面连接NVLINK交换机,组成一台巨大的计算机。最后再次强调,在给定的功率下AI工厂的吞吐量和Token生成速度将直接决定明年的收入,这是对AI工厂未来最重要的一项指标。

纵轴是吞吐量,横轴是Token速率。随着Token生成速度的提升和模型规模的不断扩大,不同应用场景对Token和上下文长度的需求也在持续激增。输入和输出的Token长度正从十万级别向数百万级别跨越。这些因素最终都将深刻影响未来Token的商业化营销与定价。

Token正在成为一种新的大宗商品。像所有大宗商品一样,一旦技术走向成熟并到达拐点,市场就会出现细分。高吞吐量但低生成速度的版本适用于免费层级;中等层级则会提供更大的模型、更快的生成速度以及更长的上下文输入窗口,对应不同的定价区间。正如大家在各类云服务中所见,从免费层级到每百万Token收费3美元、6美元的阶梯定价模式已经出现。

业界都在致力于不断突破能力边界,因为模型参数越大就越智能,输入的上下文越长则相关性越高。而在更快的生成速度下,系统能更好地进行思考与迭代,从而催生出更聪明的AI模型,每一次性能的跃升都赋予了服务更高的溢价空间。未来可能会出现收费高达45美元甚至每百万Token收费150美元的高级模型服务,专门为处于关键研发路径或进行长期复杂研究、对Token生成速度有极高要求的用户提供支持。不过从现实来看,如果一个研究团队每天消耗五千万个Token,以每百万150美元计价,这样的成本是难以承受的。但我们坚信阶梯化与细分化就是AI产业的未来发展方向。AI技术必须从确立自身价值和实用性起步,不断迭代升级,未来大多数AI服务都将采用这种多层级的模式。

7. 从Hopper到Vera Rubin:突破性能与吞吐量极限

回顾Hopper架构,大家本就预期下一代产品性能会有所提升,但Grace Blackwell的飞跃幅度超乎所有人想象。Grace Blackwell在免费层级实现了吞吐量的极大提升,而这正是企业实现服务变现的核心领域,其吞吐量直接跃升了35倍。正如各行各业的商业逻辑一样:服务层级越高,对应的质量与性能越好,但可用容量相对越低。我们在将基础层级性能提升35倍的同时,还引入了全新的服务层级,这就是Grace Blackwell相较于Hopper实现的巨大跨越。

接下来登场的是Vera Rubin。在每一个细分服务层级上我们都实现了吞吐量的飞跃。特别是在平均售价最高、最具商业价值的顶层细分市场中,我们将吞吐量提升了整整10倍。在顶尖领域实现如此幅度的性能跨越是极其艰难的工程挑战。这正是NVLink72的优势所在,也是极低延迟架构带来的巨大红利。通过极致的软硬件协同设计,我们成功拔高了整个行业的技术上限。

从客户的实际运营角度来看,假设一个数据中心只有1吉瓦的电力总容量,我们需要进行精细的算力分配:比如将各25%的算力分别投入到免费、中级、高级和Premium层级中。免费层级用于获客,而顶层服务则面向最具价值的客户群,两者结合最终转化为业务营收。在相同的资源限制下,Blackwell架构能够创造五倍以上的收入,而Vera Rubin同样能实现五倍的营收增长。因此客户应该尽早向Vera Rubin架构迁移,这不仅能显著提升吞吐量,还能大幅降低单Token的生成成本。

8. 拥抱Groq:解耦推理与算力架构的深度融合

但我们的追求不止于此。实现超高吞吐量需要海量的FLOPS算力支撑,而实现极低延迟和高频交互则高度依赖庞大的内存带宽。由于系统芯片的物理表面积总是有限的,计算机架构往往难以同时兼顾极高的FLOPS与极致的带宽。在底层设计上,优化高吞吐量与优化低延迟本质上是相互矛盾的。

为了打破这一物理瓶颈,我们收购了Groq芯片研发团队并获得了相关技术授权。双方一直在通力合作整合系统架构。如今在最具商业价值的高端层级中,我们将性能再度提升了35倍。NVIDIA之所以能在绝大多数AI工作负载中占据绝对的主导地位,根本原因就在于我们深刻理解吞吐量在这一领域的重要性。NVLink72展现出了颠覆性的架构优势,它是目前最正确的技术路径,即使在引入Groq技术后,其核心地位依然坚如磐石。

然而如果我们向外大幅延伸需求场景,假设你需要提供的服务不再是每秒400个Token,而是每秒1000个Token的超高速生成,NVLink72受限于带宽瓶颈将力不从心。这正是Groq大显身手的领域。Groq技术超越了现有极限,甚至突破了NVLink72所能触及的性能天花板。如果将技术转化为实际收益,Vera Rubin的创收能力是Blackwell的5倍。如果你的主要业务是高吞吐量工作负载,我建议100%部署Vera Rubin;但如果你的业务涉及大量代码编写或极高价值的Token生成任务,引入Groq将是明智之举。一种合理的资源配置是将Groq部署在约25%的数据中心节点中,剩余75%全部采用Vera Rubin。通过将两者深度融合,我们可以进一步拓展系统的性能边界。

Groq的计算系统之所以极具吸引力,是因为它采用了确定性的数据流处理器架构。它完全依赖静态编译和编译器调度,由软件预先精准计算并调度执行时机,确保算力与数据同步到达。这种架构彻底摒弃了动态调度并配备了海量的SRAM,是专门为AI推理这一单一工作负载量身定制的。随着全球对超智能、高速Token的生成需求呈指数级爆发,这种系统集成的价值将日益凸显。

在这个体系中存在着两种走向极端的处理器架构:一颗Vera Rubin芯片拥有288GB的庞大显存;而如果要承载Rubin级别的海量模型参数以及庞大的上下文和KV缓存(KV Cache),则需要堆叠数量惊人的Groq芯片。庞大的内存需求曾一度限制了Groq进入主流市场,直到我们构思出一个绝妙的解决方案——通过一款名为Dynamo的软件实现完全的解耦推理(Disaggregated Inference)。

我们彻底重构了AI推理流水线的执行方式。我们将最擅长高吞吐量计算的任务交给Vera Rubin处理,同时将解码生成、低延迟响应以及受带宽瓶颈制约的工作负载卸载给Groq。就这样我们将两种特性截然不同的处理器完美统一。为了解决海量内存需求,我们只需横向扩展大量Groq芯片来扩充内存容量。对于万亿参数级别的超大模型,我们可以将其完整部署在Groq芯片集群中;同时Vera Rubin在一旁协同工作,负责存储处理复杂智能体(Agentic AI)系统所需的庞大KV缓存。

基于解耦推理的概念,Vera Rubin负责处理相对简单的预填充(Pre-fill)环节,而Groq则深度参与解码(Decode)过程。解码阶段中计算密集的注意力(Attention)机制由Vera Rubin承担,而前馈网络(Feedforward Network)以及最终的Token生成则在Groq芯片上执行。这两大系统通过以太网(Ethernet)紧密耦合,并通过特殊传输模式将网络延迟削减了近一半。在这一强大的硬件底座之上,我们运行了专为AI工厂打造的卓越操作系统Dynamo,最终实现了高达35倍的性能飞跃,更带来了全球前所未见的Token生成层级推理性能。这就是整合了Groq技术的新一代Vera Rubin系统。

在此我要特别感谢Samsung。他们为我们代工制造了Groq LP30芯片,目前产线正在全力运转,芯片已全面进入量产阶段。预计在今年第三季度左右,我们还将发布升级版的Groq LPX。

回顾以往,由于NVLink72架构的极度复杂性,Grace Blackwell在早期的样片测试阶段面临了巨大挑战;但Vera Rubin的测试工作推进得异常顺利。正如Satya所宣布的,第一台Vera Rubin机架已在Microsoft Azure云平台上正式点亮运行。我们在全球范围内构建了极其强大的供应链体系,目前每周能够产出数千套此类庞大系统,相当于每个月都能交付数吉瓦规模的AI工厂基础设施。在持续交付GB300机架的同时,我们也在全面量产Vera Rubin机架。

与此同时Vera CPU也取得了空前的成功。当前AI在执行工具调用(Tool Use)等复杂操作时,依然高度依赖CPU的指令处理能力,Vera CPU的架构设计完美契合了这一核心诉求。Vera CPU与BlueField数据处理器以及CX9网卡深度整合,共同接入了BlueField-4网络堆栈生态。目前全球所有的主流存储企业都在积极融入我们的系统生态。过去是人类在使用SQL查询调用数据,而未来将是海量的AI智能体在疯狂读取存储系统。这些系统必须能够无缝支持cuDF加速存储、cuVS加速存储以及极其关键的海量KV缓存读取。

       原文标题 : 黄仁勋GTC完整演讲:生成Token的成本与效率,决定科技企业的营收与生死

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号