美团新模型 LongCat-Flash-Thinking-2601 来了。
这款大规模推理模型拥有 5600 亿个参数,基于创新的 MoE 架构构建。
除了继承前一版本中领域并行训练方法并保持传统推理基准测试的优异性能外,本次更新还通过精心设计的流程系统性地增强了智能体的思考能力。
该流程结合了环境扩展和后续任务合成,并辅以可靠高效的大规模多环境强化学习。
为了更好地适应真实世界智能体任务中固有的噪声和不确定性,研究人员对多种类型和级别的环境噪声进行了系统分析和课程训练,从而在不理想条件下也能保持稳健的性能。
因此,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中取得了顶尖的性能,而且在任意分布外的真实世界智能体场景中也显著提升了泛化能力。
在评估方面,研究团队设计了专门的评估协议来评估模型的鲁棒性和泛化能力。此外,还引入了重思维模式,能够同时启动 8 路思考,进一步提升模型在极具挑战性任务上的性能。
主要特点
环境扩展和多环境强化学习
团队构建了一系列高质量的多样化环境,作为强化学习的训练场,使模型能够习得高层次、可泛化的智能体技能。
每个环境包含超过 60 种工具,这些工具以密集依赖图的形式组织,为构建多样化的任务和进行大规模探索提供了足够的复杂性。
随着训练环境数量的增加,模型的泛化能力得到了增强。
高质量的任务建设:为了确保训练任务集的质量,研究人员明确控制了任务的复杂度和多样性。每个任务都定义在一个从高质量环境中采样得到的连通子图上,并通过要求在采样子图内尽可能多地协同使用工具来控制任务的复杂度。为了提高任务的多样性,逐步降低先前选择的工具的采样概率,并构建了相应的数据库以确保任务的可执行性,并且验证每个任务至少存在一个可执行的解决方案。
多环境强化学习:在保持高效异步训练和流式部署特性的同时,进一步扩展了强化学习基础设施(DORA),以支持大规模多环境智能体训练,这符合环境扩展协议的要求。来自多个环境的任务以均衡的方式在每个训练批次中联合组织,并根据其复杂性和当前训练状态分配不同的部署预算。
针对嘈杂环境的稳健训练
由于现实世界中的智能体环境本身就存在噪声和缺陷,仅在理想化环境中训练模型是不够的,往往会导致模型鲁棒性不足。
为了解决这个问题,研究人员将环境缺陷显式地融入模型训练过程中,以增强模型的鲁棒性。
他们系统地分析了智能体场景中现实世界噪声的主要来源,并设计了一个自动流程将这些噪声注入到训练环境中。
在强化学习过程中,他们采用了一种课程策略,随着训练的进行逐步增加噪声的类型和强度。这使得 LongCat-Flash-Thinking-2601 模型对环境不确定性表现出很强的适应能力,并在不完美条件下持续取得更佳的性能。
深度思考模式
为了突破现有推理能力的瓶颈,研究团队构建了深度思考模式。该模式可分解为两个互补阶段:并行思考和概括,从而同时提升推理的深度和广度。
在深度思考模式下,为了提升推理广度,系统会并行生成多条独立轨迹,从而实现对推理路径的广泛探索。此处采用了较高的推理温度,以确保推理路径的多样性。
在深度思考模式下,概括阶段生成的精炼轨迹可以递归地反馈到概括模型中,形成一个迭代推理循环,从而支持逐步加深的推理。
此外,他们还专门设计了一个强化学习阶段来训练概括能力,进一步释放了该模式的潜力。
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论