美团发布新模型：能够同时启动 8 路思考

2026-01-16 15:31

美团新模型 LongCat-Flash-Thinking-2601 来了。

这款大规模推理模型拥有 5600 亿个参数，基于创新的 MoE 架构构建。

除了继承前一版本中领域并行训练方法并保持传统推理基准测试的优异性能外，本次更新还通过精心设计的流程系统性地增强了智能体的思考能力。

该流程结合了环境扩展和后续任务合成，并辅以可靠高效的大规模多环境强化学习。

为了更好地适应真实世界智能体任务中固有的噪声和不确定性，研究人员对多种类型和级别的环境噪声进行了系统分析和课程训练，从而在不理想条件下也能保持稳健的性能。

因此，LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中取得了顶尖的性能，而且在任意分布外的真实世界智能体场景中也显著提升了泛化能力。

在评估方面，研究团队设计了专门的评估协议来评估模型的鲁棒性和泛化能力。此外，还引入了重思维模式，能够同时启动 8 路思考，进一步提升模型在极具挑战性任务上的性能。

主要特点

团队构建了一系列高质量的多样化环境，作为强化学习的训练场，使模型能够习得高层次、可泛化的智能体技能。

每个环境包含超过 60 种工具，这些工具以密集依赖图的形式组织，为构建多样化的任务和进行大规模探索提供了足够的复杂性。

随着训练环境数量的增加，模型的泛化能力得到了增强。

高质量的任务建设：为了确保训练任务集的质量，研究人员明确控制了任务的复杂度和多样性。每个任务都定义在一个从高质量环境中采样得到的连通子图上，并通过要求在采样子图内尽可能多地协同使用工具来控制任务的复杂度。为了提高任务的多样性，逐步降低先前选择的工具的采样概率，并构建了相应的数据库以确保任务的可执行性，并且验证每个任务至少存在一个可执行的解决方案。
多环境强化学习：在保持高效异步训练和流式部署特性的同时，进一步扩展了强化学习基础设施（DORA），以支持大规模多环境智能体训练，这符合环境扩展协议的要求。来自多个环境的任务以均衡的方式在每个训练批次中联合组织，并根据其复杂性和当前训练状态分配不同的部署预算。