昨日,蚂蚁正式发布万亿参数思维模型 Ring-1T。
就在一周前,蚂蚁官宣并开源通用语言大模型 Ling-1T —— 这是迄今为止蚂蚁参数规模最大的语言模型。上线 HuggingFace 仅四天,下载量便突破千次。
Ling-1T上线后,蚂蚁再接再厉,推出全球首个开源的万亿参数思考模型 Ring-1T。基于 Ling 2.0 架构构建,通过纯自然语言推理,可达到 IMO 银牌的推理能力。
早在 9 月 30 日,蚂蚁就已放出 Ring-1T-preview 版本。该版本模型拥有出色的自然语言推理能力,一推出便在多项榜单上崭露头角。
此次发布主要披露了 Ring-1T 完整的训练流程,包括继续通过大规模可验证奖励强化学习(RLVR)进一步增强推理能力,并结合人类反馈强化学习(RLHF)提升通用表现,模型整体能力更均衡。
蚂蚁官方表示,他们的目标是进一步释放 Ring-1T 的推理潜力并提高长上下文下的对齐和效率。
出色的推理能力
Ring-1T 采用 Ling 2.0 架构,并在 Ling-1T-base 基础模型上进行训练。该模型包含 1 万亿个总参数,其中 500 亿个激活参数,支持高达 128K 个 token 的上下文窗口。
蚂蚁还借助自主研发的 icepop 强化学习稳定化方法和高效的强化学习系统 ASystem,实现了 MoE 架构强化学习的平滑扩展——从数百亿(Ring-mini-2.0)到数千亿(Ring-flash-2.0)再到数万亿(Ring-1T)的参数规模,显著提升了模型的深度推理和自然语言推理能力。
为了评估 Ring-1T 的深度推理能力,蚂蚁选取了具有代表性的开源思维模型,如 Deepseek-V3.1-Terminus-Thinking、Qwen-235B-A22B-Thinking-2507、Gemini-2.5-Pro 和 GPT-5-Thinking 作为基准测试。
首先,相比此前开源的预览版,Ring-1T 在各项任务上展现出更加均衡的性能。此外,Ring-1T 在数学竞赛 (AIME 25、HMMT 25)、 代码生成 (LiveCodeBench、CodeForce)、 逻辑推理 (ARC-AGI-1)等高难度推理基准测试中均取得了开源领域领先的性能。
在综合任务(Arena-Hard-v2.0)、 医疗保健 (HealthBench)和创意写作 (Creative Writing v3) 等测试中,Ring-1T 也展现出强劲的竞争力。
为了更客观地分析 Ring-1T 的深度推理能力,团队还使用了今年 7 月举办的 IMO 2025(国际数学奥林匹克)和最近结束的 ICPC 2025 世界总决赛(国际大学生程序设计竞赛世界总决赛)进行了测试。
在 IMO 2025 的测试中,Ring-1T 一次性解决了问题 1、3、4 和 5,可达到 IMO 银牌水平。在第三次尝试中,它还对一个关于几何证明的问题给出了近乎完美的答案。
问题 6 最具有挑战性,IMO 2025 中没有一位 AI 选手能够正确解答。Ring-1T 给出了与 Gemini 2.5 Pro 相同的答案——“4048”(正确答案为 2112)。研究人员表示,通过持续优化,Ring-1T 未来有潜力在 IMO 中一次性达到金牌水平。
在允许模型直接求解三次问题的测试中,团队分别对比了 GPT-5-Thinking、Gemini-2.5-Pro 和 Ring-1T 的解题能力。结果表明,Ring-1T 在国际顶级编程比赛中也表现出色。
全新的强化学习框架
随着序列长度和训练步长的增加,训练引擎和推理引擎之间运算符实现的差异会变得越来越明显,尤其是在长序列生成和训练周期延长的情况下。
团队提出了 Icepop 算法,通过掩蔽双向截断技术校正分布,有效缩小了训练阶段和推理阶段之间的差距,从而“冷却”了迅速扩大的训练-推理差异。
为了保障万亿参数基础模型的强化学习训练稳定高效,团队还自主研发了高性能强化学习系统——ASystem。ASystem 采用 SingleController+SPMD 架构,对内存管理和权重交换挑战进行了精心优化,可实现秒级零冗余的模型权重交换。
对于强化学习训练框架,研究团队基于大规模无服务器沙箱技术构建了混合奖励系统。该系统支持超过 10 种编程语言的执行环境,并处理高达 10K/s 的请求吞吐量。系统目前已经开源。
然而,Ring-1T 也有不少局限性。当前版本存在身份识别偏差、语言混合、重复生成等问题。此外,由于其注意力机制仍沿用 Ling 2.0 的 GQA 方法,在长上下文场景下的推理效率仍有提升空间。
研究人员表示,Ring-1T 的训练仍在进行中,将在未来的版本中继续优化这些问题。
参考资料:
https://huggingface.co/inclusionAI/Ring-1T
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论