论文精读 2026-04-22 ★★★★★ papers reasoning rl weak-supervision rlvr

#When Can LLMs Learn to Reason with Weak Supervision? 论文详解

论文链接：<https://arxiv.org/abs/2604.18574>

这篇论文讨论的是一个现在非常关键、但也经常被说得过于乐观的问题：

大语言模型到底什么时候能在弱监督下，通过 RL 学会真正的推理？

作者给出的答案非常明确：

弱监督 RL 能否泛化，关键不在 RL 本身有多神，而在模型进入 RL 之前，是否已经具备足够强的领域先验和较高的 reasoning faithfulness（推理忠实性）。

换句话说，RL 并不总是在“创造推理能力”，更多时候是在“放大模型原本已经有、但没有被正确调动的能力”。如果底子不够，弱监督 RL 很容易只教会模型更快地记题、刷 reward，甚至学会投机。

#一句话总结

这篇论文的核心结论可以概括成 5 点：

弱监督 RL 是否泛化，取决于训练 reward 的饱和动力学。
快速 reward 饱和通常不是好事，往往意味着模型在记忆而不是学习。
决定成败的关键前置属性不是输出多样性，而是 reasoning faithfulness。
显式 reasoning trace 的 SFT 是必要条件；只学 final answer 不够。
Continual pre-training 会放大 reasoning SFT 的效果，但不能替代它。

#研究背景：为什么这个问题重要

最近一波 reasoning model 的进展里，RLVR（reinforcement learning with verifiable rewards）是核心范式之一。

它的基本思路是：

不需要每一步都有人工监督
只要最终答案可验证
就能给一个 reward 去做强化学习

这套方法在数学、代码、逻辑题上都显得很强。

但问题也越来越明显：

有时只用极少数据也能起飞
有时 reward 很 noisy 也能涨
有时甚至用 self-supervised proxy rewards 也能有效
但这些结论换个模型族就不一定成立

所以真正的问题不是“弱监督 RL 行不行”，而是：

它什么时候真的在学推理，什么时候只是学会了拿 reward？

这篇论文就是在系统研究这件事。

#论文研究了什么

作者围绕三个问题展开：

#RQ1：弱监督下 RLVR 能不能泛化？

他们分别在三种弱监督设置下测试：

Scarce data：数据极少
Noisy rewards：奖励有噪声
Self-supervised proxy rewards：自监督代理奖励

#RQ2：决定成败的 pre-RL 属性是什么？

也就是：

什么样的模型在 RL 之前就更容易在弱监督下学会推理
什么样的模型会迅速塌缩成训练集记忆器

#RQ3：如果模型失败了，怎么补救？

作者进一步研究：

持续预训练有没有用
SFT 到底该教 reasoning trace 还是只教 final answer

#实验设置

#模型族

论文主要比较两类模型：

Qwen 系列
Llama 系列

一个关键点是，作者并不把结论粗暴说成“Qwen 比 Llama 更强”，而是把这种差异解释为：

不同模型具有不同强度的 pretraining prior（预训练先验）。

例如：

Qwen2.5-Math 在数学上有更强的领域相关预训练
Llama-3.2-Instruct 更偏通用 instruction-following

所以本质上，论文是在比较：

有强领域先验的模型
没有足够强领域先验的模型

#三个任务域

作者选择了三类推理任务：

Math：预训练覆盖高
Science：预训练覆盖中等
Graph：通常预训练覆盖较弱

这个设计很重要，因为它能观察“领域先验”对弱监督 RL 的影响。

#三种弱监督情形

#1. Scarce Data

训练样本数量从非常小的规模开始，比如 8、32、64，一直到更大的规模。

问题是：

只靠几条训练样本，模型能不能学到可泛化的推理？

#2. Noisy Rewards

reward 被刻意污染或加入噪声。

问题是：

当奖励不再完全干净，模型还能不能学到正确的推理模式？

#3. Self-Supervised Proxy Rewards

不依赖标准真值校验，而用代理信号，比如多数投票（majority vote）这类 proxy rewards。

问题是：

模型会不会学会 reward hacking，而不是学会推理？

#核心发现 1：决定成败的，是 reward saturation dynamics

这是整篇论文最核心的 insight。

作者提出：

要理解弱监督 RL 是否真的在学习，不能只看 reward 有没有涨，而要看 reward 是如何涨、何时饱和。

他们把训练过程分成两段：

Pre-saturation phase：reward 尚未饱和的阶段
Post-saturation phase：reward 基本吃满之后的阶段

#能泛化的模型会怎样？

能泛化的模型通常有一个较长的 pre-saturation phase：

reward 稳定上升
下游评测也一起上涨
说明模型正在逐步形成可迁移的推理模式

#不能泛化的模型会怎样？

不能泛化的模型通常 reward 很快饱和：

训练 reward 迅速拉满
但测试集表现不涨，甚至下降
后续继续 RL 基本没有意义

这意味着：

它学会的是如何在训练分布里拿到高 reward，而不是学会通用推理。

这是一个很有力量的判断标准，因为它反驳了一个常见误区：

“reward 漲了 = 模型学会了。”

论文明确表明：

reward 变高本身并不能说明模型在学推理；快速饱和反而常常是坏信号。

#核心发现 2：少量数据确实可以触发学习，但前提是模型有先验

论文中一个比较反直觉的结果是：

即使只有 8 个训练样本，也可能触发可观察的学习。

但作者强调，这不意味着 RL 有某种“凭空造能力”的神奇效果。

更合理的解释是：

模型本来就已经有某种相关先验
RL 用极少样本把这些潜在能力调动出来
真正限制泛化的不是“8 个样本太少”，而是模型有没有足够强的 pretraining prior

所以少样本下 RL 的效果，本质更像是：

对既有先验的提纯与激活，而不是从零开始学习。

这也解释了为什么：

Qwen 在数学和科学上更容易成功
Llama 在同样设定下更容易快速塌缩

#核心发现 3：决定成败的不是 diversity，而是 faithfulness

这一点非常重要。

很多人会自然猜：

模型之所以失败，是不是因为它探索不够、输出不够多样？

作者专门检验了这个假设，发现并不是这样。

#失败模型并不缺多样性

一些失败的 Llama 模型：

并不缺输出 diversity
甚至可以比 Qwen 更快拿到高训练 reward
但泛化仍然很差

所以论文得出一个很关键的结论：

output diversity alone is uninformative

也就是：

输出多样性本身，不能作为弱监督 RL 是否真的在学习推理的可靠指标。

#什么才是关键？

答案是：

#Reasoning faithfulness

作者把它定义为：

模型的中间推理步骤在多大程度上逻辑上支撑最终答案。

也就是说，不是看最终答案对不对，而是看：

这个答案是不是由前面的 reasoning 真正推出来的
还是只是“答案对了，但推理是在瞎走”

如果模型经常出现下面这种情况：

最终答案对了
但中间过程并没有真正支撑这个答案
或者 reasoning 有明显跳步、断裂、投机

那么它就是 低 faithfulness。

论文的关键发现是：

低 faithfulness 的模型在弱监督 RL 下更容易快速饱和，并陷入“记忆而非学习”的状态。

换句话说：

高 faithfulness 模型：reward 会强化真实推理路径，因而能泛化
低 faithfulness 模型：reward 会强化“结果正确但过程不扎实”的捷径，因而更容易过拟合和投机

#为什么 Qwen 常成功、Llama 常失败

论文没有把这个问题简化成“模型品牌之争”，而是给出更有解释力的框架：

强领域相关预训练先验，会让模型更容易维持较长的 pre-saturation phase。

以 Qwen2.5-Math 为例：

数学相关预训练更强
因而在数学弱监督 RL 中，不容易立刻走向 reward 饱和
有更多空间把 RL 奖励转化为可迁移的 reasoning patterns

而 Llama 的问题在于：

在这些任务上领域先验不够强
弱监督 reward 很快被模型“刷穿”
于是训练集 reward 好看，但泛化上不去

在 Graph 任务上，这个现象甚至连 Qwen 都会变差，因为 Graph 类离散结构推理通常预训练暴露更少。

所以作者的真正结论是：

弱监督 RL 不是普适魔法，它高度依赖 base model 在该领域上的已有结构。

#核心发现 4：怎么救失败模型？

为了回答这个问题，作者做了一组非常有价值的干预实验。

他们选了一个表现最差的失败模型：

Llama3.2-3B-Base

然后分别研究两个方向：

#干预 A：Continual Pre-Training（CPT）

在领域数据上做持续预训练，增强模型的领域先验。

论文里主要在数学域做：

用大规模数学语料继续预训练 Llama3.2-3B-Base

#干预 B：SFT

作者把 SFT 分成两种：

#1. Non-Thinking SFT

只训练最终答案
不教显式推理链

#2. Thinking SFT

训练显式、验证过的 reasoning traces
让模型学会把中间推理过程写出来

#最关键结论：Thinking SFT 是必要条件

作者最终发现：

SFT on explicit reasoning traces is necessary for generalization under weak supervision.

也就是说：

如果你只教 final answer，而不教显式推理过程，那么弱监督 RL 很难真正泛化。

这是非常实用的结论。

因为只学 final answer 的监督，本质上只告诉模型：

目标输出长什么样
正确答案该怎么格式化

但它没有告诉模型：

为什么这个答案对
推理路径该怎么展开
哪种中间结构才是“好 reasoning”

于是模型到了弱监督 RL 阶段，仍然很容易走向捷径。

而 Thinking SFT 做的事情是：

提升 reasoning faithfulness
让模型在 RL 之前就具备更好的 reasoning skeleton
使得 RL 奖励能够强化真实的推理路径，而不是投机模式

#CPT 的作用：放大器，而不是替代品

论文进一步指出：

Continual pre-training amplifies the effect, but does not substitute for Thinking SFT.

这句话也非常关键。

意思是：

只做 CPT，不够
只做 Thinking SFT，有帮助，但也有限
CPT + Thinking SFT 效果最好

它们之间更像是分工关系：

CPT：增强领域相关 prior
Thinking SFT：把 reasoning shape 教进去
Weak-supervision RL：在此基础上放大和细化

所以论文给出的最佳路线，不是“直接上 RL”，而是：

先补强领域先验，再补 reasoning trace，再做弱监督 RL。

#这篇论文真正重要的地方

我觉得这篇论文的价值，不只是做了一个实验现象统计，而是提供了一个统一的理解框架。

#1. 它解释了为什么很多弱监督 RL 结果不稳定

以前的很多结论看起来互相矛盾：

极少数据有效
noisy reward 有效
proxy reward 有效
但换个模型就不行

这篇论文把这些现象统一成：

问题不在监督形式本身，而在模型进入 RL 时所处的 regime。

也就是：

是在长 pre-saturation 学习区
还是在快速饱和记忆区

#2. 它把 faithfulness 从“解释性问题”拉成了“训练问题”

以前很多人讨论 reasoning faithfulness，更多是在：

可解释性
安全监控
chain-of-thought 是否可信

但这篇论文说明：

faithfulness 不只是为了可解释，它直接影响弱监督 RL 是否能泛化。

这让 faithfulness 变成了训练成败变量，而不只是一个附属分析指标。

#3. 它在纠正一种过度乐观叙事

过去容易出现一种说法：

“只要有 RL，哪怕奖励很弱，模型也能自己学会推理。”

这篇论文给出的答案明显更克制，也更可信：

RL 很多时候不是从零创造推理能力，而是在利用、提纯和放大已有先验。

如果模型没有这些先验，弱监督 RL 很可能只是把模型训练成一个更擅长拿 reward 的系统，而不是一个真正更会推理的系统。

#对工程实践的启发

如果你在训练自己的 reasoning model，这篇论文几乎给出了很明确的实践建议。

#建议 1：不要只盯 reward 曲线

除了训练 reward，还应该同步看：

saturation 是否来得太快
downstream eval 是否同步上涨
reasoning faithfulness 是否在提升

如果 reward 很快饱和，但评测不涨，那通常说明：

模型已经把能从当前 prior 中榨出的东西榨干了，继续堆 RL 只会事倍功半。

#建议 2：弱监督失败时，优先补 pre-RL training

与其盲目增加 RL 步数，不如先做：

domain continual pre-training
thinking SFT
再做 RLVR / weak supervision RL

论文明确支持这种资源分配逻辑。

#建议 3：不要把 diversity 当成唯一健康指标

高 diversity 不代表模型在学会推理。

你需要更关注：

reasoning 是否自洽
中间步骤是否真正支撑答案
模型是不是在靠捷径拿 reward

#建议 4：对 proxy rewards 要保持谨慎

像 majority vote 这类自监督代理奖励，看起来很省监督，但也最容易被 reward hacking。

如果模型本身 faithfulness 不高，那么 proxy reward 很可能只是把它推向更强的投机模式。

#我的评价

我觉得这篇论文是最近 RL for reasoning 方向里非常值得读的一篇机制性论文。

它强的地方不在于提出了某个 flashy 的 trick，而在于：

问题问得对
实验设计比较系统
给出了一套可解释框架
工程指导意义很强

尤其是下面这个主张，我认为非常有启发性：

弱监督 RL 的成败，大部分在 RL 开始前就已经决定了。

这句话几乎可以当整篇论文的精神总结。

#这篇论文的局限

当然，这篇论文也不是没有限制。

#1. 任务域仍然偏“可验证推理”

主要还是数学、科学、图推理这类任务。

对更开放、更含糊、不可直接验证的复杂推理任务，这套结论是否原样成立，还需要更多研究。

#2. Faithfulness 的测量仍然依赖 judge

作者用了 LLM-as-a-judge 的方法去量化 reasoning faithfulness，这在今天是合理做法，但仍然是代理变量，不是完美真值。

#3. 模型规模范围有限

论文主要看的是中小规模开源模型。更大模型上大概率同样成立，但具体边界可能不同。

#最后总结

如果把整篇论文翻译成一句很直白的话，那就是：

弱监督 RL 不是不能教会模型推理，但前提是模型原本就“差不多会了”；否则它更可能学会的是投机。

而让模型从“差不多会了”变成“真的能学会”的关键，是两件事：

更强的领域相关 pretraining prior
显式 reasoning trace 的 SFT

然后，弱监督 RL 才会从“刷 reward”变成“学推理”。

#最精炼的 5 句 takeaways

弱监督 RL 是否泛化，关键看 reward 是慢慢涨还是很快饱和。
快速饱和通常意味着模型在记忆或投机，而不是在学习。
决定成败的关键前置属性是 reasoning faithfulness，而不是 output diversity。
Thinking SFT 是必要条件；只教 final answer 不够。
CPT + Thinking SFT + weak-supervision RL，是更靠谱的 reasoning 训练路径。