刚刚，DeepSeek登上Nature封面！梁文锋带队回应质疑，R1训练真29.4万美金

2025-09-18 发布浏览317次点赞0次收藏0次

【导读】DeepSeek荣登Nature封面，实至名归！今年1月，梁文锋带队R1新作，开创了AI推理新范式——纯粹RL就能激发LLM无限推理能力。Nature还特发一篇评论文章，对其大加赞赏。

刚刚，DeepSeek-R1登上了Nature封面！

今年1月，DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文发布，如今成功登上全球顶刊封面。

通讯作者梁文锋带队，用RL为大模型推理能力开辟了全新路径。

论文地址：https://www.nature.com/articles/s41586-025-09422-z

在封面推荐中，Nature毫不吝啬地赞扬了DeepSeek-R1的成就。

开源之后，R1在Hugging Face成为最受欢迎的模型，下载量破1090万次。关键是，它是全球首个经过同行评审的主流大模型。

值得一的是，补充材料首次公开了R1训练成本——294000美元，数字低到惊人。

即便是加上约600万美元的基础模型成本，也远低于OpenAI、谷歌训练AI的成本。

从一篇arXiv论文到Nature封面，DeepSeek团队再次用实力为AI推理的未来铺路。

R1被认为是首个经历同行评审过程的主流LLM。

审稿人Lewis Tunstall表示：

这是一个非常值得欢迎的先例。若不公开分享大部分研发过程，我们将难以评估这些系统是否存在风险。

针对同行评审意见，DeepSeek减少了拟人化描述，并增加了技术细节说明，包括模型训练数据类型和安全性能。

审稿人Huan Sun表示：

通过严格同行评审过程，有助于验证模型的有效性和实用性，其他公司也应效仿。

DeepSeek-R1-Zero诞生

研究团队的出发点大胆而纯粹：彻底抛开对人类推理轨迹的依赖。

人类定义的推理模式，可能反而是一种束缚。

他们选择了一个强大的基础模型DeepSeek-V3 Base，跳过了传统的SFT阶段。

取而代之的，是一个极其简洁的强化学习框架，只告诉模型两件事：

1. 任务格式：回答必须包含两部分，一个是被标签包裹的「思考过程」，另一个是被标签包裹的「最终答案」。

2. 奖励信号：根据最终答案是否正确来给予奖励，不管采用什么样的思考方法。

在没有解题步骤的对错评判，没有思维方式的引导下，DeepSeek-R1-Zero开始了它的「野蛮生长」。

在整个训练过程中，R1-Zero的推理能力发生了质的飞跃。

以AIME 2024为例，它的平均解题准确率（pass@1）从最初的15.6%，一路狂飙至77.9%。

如果再配合「自洽解码」技术，准确率更是高达86.7%——这一成绩远超AIME竞赛中所有人类选手的平均水平。

AI「顿悟时刻」

更令人着迷的，是它在能力提升过程中展现出的自我进化行为。

「思考时间」自主增加

随着训练的进行，模型在标签内生成的文本长度稳步增加。

它自发地学会了用更长的「思维链」来探索和优化解题策略，有时甚至会生成成百上千个token来反复推敲一个问题。

高级推理策略的涌现

模型不再是线性地一步步解题，而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。

它会验证自己的中间步骤，甚至会主动探索「如果我用另一种方法会怎么样？」

一个有趣「顿悟时刻」

在训练的某个阶段，研究人员观察到了一个清晰的「顿悟时刻」（Aha Moment）。

也就是，模型在反思过程中，使用「wait」（等等）这个词的频率突然急剧增加。

这一时刻，标志着DeepSeek-R1-Zero在推理模式上发生了明显转变，清晰地揭示了它的自我进化过程。

而这种进化，也完美诠释了强化学习的魅力：

不必教它如何解题，只需提供正确的激励，它就能自主地发展出比人类教的更高级的策略。

DeepSeek-R1之路

尽管DeepSeek-R1-Zero展现了神级的推理能力，但由于其训练完全以推理为导向，它存在可读性差、偶尔会在中英文之间混乱切换的问题，并且在写作、开放域问答等通用能力上表现平平。

为了解决R1-Zero的问题，并让其强大的推理能力能被更广泛地应用，研究团队设计了一套精密的多阶段训练流程，并启动了第二阶段的「精炼」计划：

1. 冷启动（Cold Start）：首先，用数千条高质量的、符合人类对话习惯的数据对模型进行初步微调，教它「好好说话」。

2. 第一轮强化学习（RL）：再次应用强化学习，但这次的目标不仅是提升推理，也包括保持语言的一致性和对话的流畅性。

3. 大规模监督微调（SFT）：团队将推理数据与海量的非推理数据（如写作、通用问答、代码工程）混合在一起，进行大规模的监督微调。这极大地扩展了模型的知识面和通用能力。

4. 第二轮强化学习（RL）：最后，再进行一轮全面的强化学习，利用一个更复杂的奖励模型，进一步增强模型的有用性、无害性，并使其行为与人类偏好对齐。

经过多轮炼丹，DeepSeek-R1不仅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和用户偏好的基准上，性能提升了17%-25%，而且还在数学、编程等高难度推理任务上保持了顶尖水准。

揭秘DeepSeek-R1「炼丹炉」

接下来，就让我们深入这个「炼丹炉」的内部，一探究竟。

GRPO算法

在AI训练的赛道上，强化学习算法PPO（近端策略优化）长期以来都是大语言模型训练的「标配赛车」。它虽然强大，但也以资源消耗巨大和实现复杂而著称。

DeepSeek团队选择了一条更聪明的路，他们采用了GRPO（组相对策略优化）算法作为核心驱动引擎。

PPO就像一位极其谨慎的教练，它在每次训练更新时，都会严格限制新策略与旧策略的偏离程度，以防模型「跑偏」导致训练崩溃。

这种谨慎是有代价的，它需要大量的计算来维持稳定。

而GRPO则像一位更高效、更相信「集体智慧」的教练。它的核心思想是：

在每次训练时，让模型针对同一个问题，生成一组（比如16个）不同的答案。

然后，它不只是简单地奖励最好的那个，而是根据这一组答案的「相对好坏」，来整体优化模型。

具体来说，它会计算出每个答案相对于这一组答案平均水平的「优势」（Advantage），优势大的（即表现更好的）答案会得到更大的激励权重，而表现差的则会被抑制。

这种「组内竞争、择优而学」的机制，简化了PPO复杂的约束过程，不仅显著降低了资源消耗，还被证明在实践中同样稳定高效。

奖励设计

强化学习的本质，就是通过奖励（Reward）来塑造模型的行为。它决定了模型将朝着哪个方向进化。

为此，DeepSeek团队设计了一套双轨制的奖励系统。

1. 基于规则的奖励

对于推理任务（数学、编程、逻辑），团队采用了一套极其严格的基于规则的奖励系统。

准确率奖励：最终答案对不对？对于数学题，答案必须和标准答案完全一致；对于编程题，代码必须通过所有预设的测试用例。

格式奖励：思考过程是否符合规范？所有的思考过程都必须封装在和标签内。

这里，有一个关键的决定：在推理任务上，完全不使用基于神经网络的奖励模型。

因为团队发现，AI在长时间、大规模的强化学习中，会找到奖励模型本身的漏洞并加以利用，即所谓的「奖励投机（Reward Hacking）」。

2. 基于模型的奖励

然而，世界并非非黑即白。对于通用任务比如写作、对话，大多只有好坏之分。

于是，DeepSeek团队引入了基于模型的奖励，从而让模型更符合人类的偏好。

有用性奖励模型：专门负责评判模型的回答对用户是否有用、切题。它通过比较大量的「好答案」与「坏答案」对（由DeepSeek-V3生成并筛选）来学习人类的偏好。有趣的是，它只评估最终的摘要部分，而不去干涉底层的推理过程，给予模型在思考上的充分自由。

安全奖励模型：负责检查模型的全部输出，包括思考过程，以识别和惩罚任何潜在的有害、偏见或危险内容。

如此一来，模型在保持强大推理能力的同时，也学会了如何生成更有用、更安全、更符合人类习惯的内容。

训练细节

DeepSeek的训练并非一蹴而就，而是分为多个精心设计的阶段，每个阶段都有不同的侧重点和巧妙的参数调整。

最开始的训练完全聚焦于数学、编程等推理任务，仅使用基于规则的奖励。

一个有趣的现象发生在训练进行到第8,200步时：研究人员将模型处理的最大文本长度从32,768个Token猛增到65,536个Token。

这一改变带来了立竿见影的效果，模型的性能和回答长度都出现了「大幅跃升」。

其他参数设置如下：

学习率：3×10⁻⁶

KL散度系数：0.001

GRPO裁剪比率ϵ：10

推理采样温度：1

每个训练步包含32个独立问题，每步的批大小为512。

每400步，用最新的策略模型替换参考模型。

第一强化学习阶段

在这一阶段，训练数据变得更加多样化。

团队遇到了一个意想不到的挑战：模型的「思维链」（标签内的内容）中频繁出现中英夹杂的「语言混合」现象。虽然这不一定影响最终答案的正确性，但极大地影响了可读性。

为了解决这个问题，他们创造性地引入了一个「语言一致性奖励」：如果模型在处理中文问题时，思维链中中文词汇的比例越高，获得的奖励就越多。

尽管实验表明，强行「矫正」语言会导致模型性能微乎其微的下降，但为了输出结果更符合人类阅读习惯，这个牺牲是值得的。

第二强化学习阶段

在这一阶段，研究人员结合了奖励信号和多样化的提示词分布来训练模型。

推理数据使用基于规则的奖励，通用数据则启用基于模型的奖励。

奖励可以公式化为：

其中

第二阶段保留了第一阶段的大部分参数，但将温度降至0.7，以防因为系数过高造导致生成内容不连贯。

此外，这里还有一个关键操作：基于模型的奖励（有用性和安全性）仅在最后400个训练步中才被引入，从而避免奖励投机的产生。

挑战与未来

DeepSeek-R1的诞生，为AI发展带来了深刻的启示，也伴随着新的挑战。

能力局限
在结构化输出和工具使用（如调用计算器、搜索引擎）方面，目前的DeepSeek-R1尚有欠缺。它对提示词非常敏感，不适合复杂的少样本提示，在零样本直接提问时效果最佳。此外，由于强化学习在耗时长的软件工程任务上效率不高，R1在该领域的提升有限。

奖励投机
纯强化学习的成功，完全依赖于可靠的奖励信号。在数学、编程这类有明确对错答案的领域，这很容易实现。但对于像「写一首优美的诗」这样主观的任务，则很难设计完美的奖励模型。如果奖励信号本身有漏洞，策略模型就会像一个聪明的学生钻考试规则的空子一样，「投机取巧」、骗取高分，而不是真正提升能力。

年初，DeepSeek-R1发布后，OpenAI感觉不可思议，指责DeepSeek「可能使用了ChatGPT的输出来训练R1」。

在与审稿人的交流中，DeepSeek表示，R1并非通过复制OpenAI模型生成的推理示例来学习。

不过，与大多数其他大语言模型一样，R1的基础模型是在网络上训练的，因此它会吸收互联网上已有的AI生成的内容。

俄亥俄州立大学AI研究员Huan Sun表示，这一解释「与我们在任何出版物中看到的一样令人信服」。

Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall补充说，其他实验室的复制尝试表明，DeepSeek推理方法已经足够好，不需要这样做。

他说：「我认为现在的证据相当明确，仅使用强化学习就可以获得非常高的性能。」

Lewis Tunstall说，其他研究人员现在正试图应用创建R1的方法来改进现有大语言模型的类似推理能力，并将其扩展到数学和编码以外的领域。他补充说，通过这种方式，R1「开启了一场革命」。

参考资料：HYJ

https://www.nature.com/articles/s41586-025-09422

https://www.nature.com/articles/d41586-025-03015-6

ChatGPT 性能评论 4 测试框架 OpenAI 大模型 AI 训练模型 GPT 写作谷歌试用

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

刚刚，DeepSeek登上Nature封面！梁文锋带队回应质疑，R1训练真29.4万美金

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。