阿里云声称,在其 Model Studio 市场内进行的为期数月的 Beta 测试中,其全新 Aegaeon 池化系统将服务大型语言模型所需的 Nvidia GPU 数量减少了 82%。
该结果发表在首尔举行的 2025 年 ACM 操作系统研讨会 (SOSP) 上的一篇同行评议论文中,表明云提供商或许能够从现有芯片中提取出更强大的推理能力,尤其是在中国等 Nvidia 最新 H20 芯片供应仍然有限的市场。
减少对 GPU 的依赖
与追求模型质量或速度的训练时间突破不同,Aegaeon 是一个推理时间调度器,旨在最大限度地提高 GPU 在众多具有突发性或不可预测需求的模型中的利用率。
Aegaeon 并非将一个加速器绑定到一个模型,而是在令牌级别虚拟化 GPU 访问,从而允许其在共享池中调度微小的工作片段。
这意味着一台 H20 可以同时服务于多个不同的模型,系统范围的“有效吞吐量”(衡量有效输出的指标)与旧版无服务器系统相比,最高可提升 9 倍。
论文指出,该系统已在生产环境中测试了数月。论文作者来自北京大学和阿里巴巴基础设施部门,其中包括首席技术官周靖人。系统支持数十种不同 LLM(参数规模高达 720 亿)所需的 GPU 数量从 1192 个减少到仅 213 个。
虽然该报没有具体说明哪些型号对节省的贡献最大, 但《南华早报》 报道称,测试是使用 Nvidia 的 H20 进行的,这是根据现行美国出口管制规定,中国买家仍可合法购买的少数加速器之一。
阿里巴巴表示,这些优势主要源于两项技术:
在每个 GPU 上打包多个模型;
使用令牌级自动缩放器在输出生成时动态分配计算资源,而不是在请求级别预留资源。
模型性能优化
阿里云发现,在实际的 AI 任务中,只有少数模型被频繁使用。然而,大量的 GPU 资源却被分配给了很少被调用的模型,导致资源利用率低下。数据显示,17.7%的 GPU 资源仅承载了总推理请求的 1.35%。
借助 Aegaeon,阿里巴巴通过池化和智能扩展策略解决了这种不平衡问题。该系统确保了 GPU 的持续使用,并避免了不常用模型的闲置处理。 阿里巴巴实现了更高的吞吐量,并提升了企业部署的硬件效率。
在基准测试中,Aegaeon 的实际吞吐量是 ServerlessLLM 和 MuxServe 的 1.5 倍到 9 倍不等。
战略转变
华为和寒武纪等中国企业正在加速研发国产 GPU,以减少对外国的依赖。英伟达首席执行官表示,该公司在中国先进 AI 芯片市场的份额已降至零。这一趋势促使本土企业进行创新,并实现 AI 硬件供应链的本地化。
阿里巴巴的新策略巩固了其市场地位,同时也与国家科技自给自足战略相契合。通过减少对美国芯片的依赖,阿里巴巴在中国不断发展的人工智能生态系统中获得了更稳固的立足点。
这些节省能否在阿里巴巴堆栈之外发挥作用还有待观察。阿里云的论文并未具体说明 Beta 测试中使用的具体网络结构,但该公司提供自己的 eRDMA 弹性 RDMA 网络,并且拥有构建高度集成的 GPU 服务堆栈的记录,这表明结果可能取决于优化的垂直集成环境。
无论如何,随着推理需求持续飙升,这一结果可能会吸引其他超大规模企业的兴趣,他们希望扩大稀缺的加速器规模。
参考资料:
https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
https://coincentral.com/alibaba-group-holding-limited-baba-stock-soars-as-new-ai-pooling-tech-slashes-nvidia-gpu-use-by-82/
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论