DeepSeek 补全 R1 论文，新增 64 页技术细节

2026-01-16 15:39

来源： OFweek人工智能网

近日，DeepSeek 悄悄更新了 R1 的技术论文，新增了整整 64页！

通过对比 DeepSeek-R1 论文的两个版本，可以发现新版论文不仅补充了若干附录，还对正文进行了大幅修订与扩充，信息量显著增加。

在回顾去年一月发布的初版论文时，其核心聚焦于 DeepSeek-R1-Zero，旨在论证纯强化学习路径的可行性。而新版本则在此基础上，进一步丰富了具体实现细节的阐述。

公布完整训练路径

论文系统性地展开了 R1 模型的完整训练路径，该过程主要分为四个阶段：

第一阶段为冷启动，使用数千条包含思维链的示例数据对模型进行监督微调。
第二阶段为推理导向的强化学习，在保持模型推理风格的同时提升其能力，并通过引入语言一致性奖励来解决响应中语言混用的问题。
第三阶段结合拒绝采样与再微调，同步加入推理数据与通用数据，以平衡模型的推理能力与文本生成质量。
第四阶段为对齐导向的强化学习，专注于提升模型的有用性与安全性，使其行为更符合人类偏好。

整体而言，论文对训练流程的披露颇为详尽，包括冷启动数据的构建、各阶段强化学习的具体设计、奖励模型的配置等，提供了清晰的技术实现参考。

论文也对 R1-Zero 部分进行了补充，特别是针对模型训练中出现的“反思”涌现现象进行了进一步分析。研究通过人工筛选出一批具有反思特征的词汇，并统计其在训练过程中出现频率的变化。结果显示，随着训练进行，这类词汇的出现频率较训练初期上升约5至7倍，且不同反思词汇在不同训练阶段呈现出差异化的出现模式。