近日,DeepSeek 悄悄更新了 R1 的技术论文,新增了整整 64页!
通过对比 DeepSeek-R1 论文的两个版本,可以发现新版论文不仅补充了若干附录,还对正文进行了大幅修订与扩充,信息量显著增加。
在回顾去年一月发布的初版论文时,其核心聚焦于 DeepSeek-R1-Zero,旨在论证纯强化学习路径的可行性。而新版本则在此基础上,进一步丰富了具体实现细节的阐述。
公布完整训练路径
论文系统性地展开了 R1 模型的完整训练路径,该过程主要分为四个阶段:
第一阶段为冷启动,使用数千条包含思维链的示例数据对模型进行监督微调。
第二阶段为推理导向的强化学习,在保持模型推理风格的同时提升其能力,并通过引入语言一致性奖励来解决响应中语言混用的问题。
第三阶段结合拒绝采样与再微调,同步加入推理数据与通用数据,以平衡模型的推理能力与文本生成质量。
第四阶段为对齐导向的强化学习,专注于提升模型的有用性与安全性,使其行为更符合人类偏好。
整体而言,论文对训练流程的披露颇为详尽,包括冷启动数据的构建、各阶段强化学习的具体设计、奖励模型的配置等,提供了清晰的技术实现参考。
论文也对 R1-Zero 部分进行了补充,特别是针对模型训练中出现的“反思”涌现现象进行了进一步分析。研究通过人工筛选出一批具有反思特征的词汇,并统计其在训练过程中出现频率的变化。结果显示,随着训练进行,这类词汇的出现频率较训练初期上升约5至7倍,且不同反思词汇在不同训练阶段呈现出差异化的出现模式。
增加评估细节
在安全性方面,鉴于开源模型若未经过充分安全对齐易被误用,论文此次详细披露了相关的训练与评估细节。
团队构建了一个包含 10.6 万条提示的数据集,并依据明确的安全准则对模型回复进行标注。
安全奖励模型采用点式训练方法,以区分安全与不安全的回答,其训练超参数与有用性奖励模型保持一致。
风险控制系统方面,DeepSeek-R1 通过向 DeepSeek-V3 发送审查提示来实现,主要包括两个流程:
对用户输入进行关键词过滤,识别潜在风险对话;
将识别出的对话与预设的安全审查提示组合,交由 DeepSeek-V3 进行最终判定,决定是否拦截。
评估表明,引入风险控制系统后,模型的安全性得到显著提升。在多项基准测试中,R1 的表现与前沿模型水平相当,仅在 HarmBench 的特定子集上表现有所不足。
团队也构建了内部安全评测数据集,涵盖 4 大类共 28 个子类,并采用基于大模型的自动评判方法进行安全性评估。
除技术内容外,论文作者名单也反映出团队的稳定性。在论文发布近一年后,其 18 位核心贡献者仍全部在职,百余名作者中仅 5 位标注为已离队。
值得注意的是,与去年版本相比,有一位此前离队的作者现已回归。在人工智能领域人才竞争激烈的背景下,该团队保持了较高的成员留任率。
从发布时机来看,这篇长达 64 页的补充材料在论文即将满一周年时释出,系统性地完善了技术细节,显著提升了研究工作的可复现性,也为 R1 的相关工作提供了一个阶段性的总结。
参考资料:
https://arxiv.org/pdf/2501.12948
·
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论