#When Can LLMs Learn to Reason with Weak Supervision? 论文详解

论文链接:<https://arxiv.org/abs/2604.18574>

这篇论文讨论的是一个现在非常关键、但也经常被说得过于乐观的问题:

大语言模型到底什么时候能在弱监督下,通过 RL 学会真正的推理?

作者给出的答案非常明确:

弱监督 RL 能否泛化,关键不在 RL 本身有多神,而在模型进入 RL 之前,是否已经具备足够强的领域先验和较高的 reasoning faithfulness(推理忠实性)。

换句话说,RL 并不总是在“创造推理能力”,更多时候是在“放大模型原本已经有、但没有被正确调动的能力”。如果底子不够,弱监督 RL 很容易只教会模型更快地记题、刷 reward,甚至学会投机。


#一句话总结

这篇论文的核心结论可以概括成 5 点:

  1. 弱监督 RL 是否泛化,取决于训练 reward 的饱和动力学。
  2. 快速 reward 饱和通常不是好事,往往意味着模型在记忆而不是学习。
  3. 决定成败的关键前置属性不是输出多样性,而是 reasoning faithfulness。
  4. 显式 reasoning trace 的 SFT 是必要条件;只学 final answer 不够。
  5. Continual pre-training 会放大 reasoning SFT 的效果,但不能替代它。

#研究背景:为什么这个问题重要

最近一波 reasoning model 的进展里,RLVR(reinforcement learning with verifiable rewards)是核心范式之一。

它的基本思路是:

  • 不需要每一步都有人工监督
  • 只要最终答案可验证
  • 就能给一个 reward 去做强化学习

这套方法在数学、代码、逻辑题上都显得很强。

但问题也越来越明显:

  • 有时只用极少数据也能起飞
  • 有时 reward 很 noisy 也能涨
  • 有时甚至用 self-supervised proxy rewards 也能有效
  • 但这些结论换个模型族就不一定成立

所以真正的问题不是“弱监督 RL 行不行”,而是:

它什么时候真的在学推理,什么时候只是学会了拿 reward?

这篇论文就是在系统研究这件事。


#论文研究了什么

作者围绕三个问题展开:

#RQ1:弱监督下 RLVR 能不能泛化?

他们分别在三种弱监督设置下测试:

  • Scarce data:数据极少
  • Noisy rewards:奖励有噪声
  • Self-supervised proxy rewards:自监督代理奖励

#RQ2:决定成败的 pre-RL 属性是什么?

也就是:

  • 什么样的模型在 RL 之前就更容易在弱监督下学会推理
  • 什么样的模型会迅速塌缩成训练集记忆器

#RQ3:如果模型失败了,怎么补救?

作者进一步研究:

  • 持续预训练有没有用
  • SFT 到底该教 reasoning trace 还是只教 final answer

#实验设置

#模型族

论文主要比较两类模型:

  • Qwen 系列
  • Llama 系列

一个关键点是,作者并不把结论粗暴说成“Qwen 比 Llama 更强”,而是把这种差异解释为:

不同模型具有不同强度的 pretraining prior(预训练先验)。

例如:

  • Qwen2.5-Math 在数学上有更强的领域相关预训练
  • Llama-3.2-Instruct 更偏通用 instruction-following

所以本质上,论文是在比较:

  • 有强领域先验的模型
  • 没有足够强领域先验的模型

#三个任务域

作者选择了三类推理任务:

  1. Math:预训练覆盖高
  2. Science:预训练覆盖中等
  3. Graph:通常预训练覆盖较弱

这个设计很重要,因为它能观察“领域先验”对弱监督 RL 的影响。


#三种弱监督情形

#1. Scarce Data

训练样本数量从非常小的规模开始,比如 8、32、64,一直到更大的规模。

问题是:

只靠几条训练样本,模型能不能学到可泛化的推理?

#2. Noisy Rewards

reward 被刻意污染或加入噪声。

问题是:

当奖励不再完全干净,模型还能不能学到正确的推理模式?

#3. Self-Supervised Proxy Rewards

不依赖标准真值校验,而用代理信号,比如多数投票(majority vote)这类 proxy rewards。

问题是:

模型会不会学会 reward hacking,而不是学会推理?


#核心发现 1:决定成败的,是 reward saturation dynamics

这是整篇论文最核心的 insight。

作者提出:

要理解弱监督 RL 是否真的在学习,不能只看 reward 有没有涨,而要看 reward 是如何涨、何时饱和。

他们把训练过程分成两段:

  • Pre-saturation phase:reward 尚未饱和的阶段
  • Post-saturation phase:reward 基本吃满之后的阶段

#能泛化的模型会怎样?

能泛化的模型通常有一个较长的 pre-saturation phase

  • reward 稳定上升
  • 下游评测也一起上涨
  • 说明模型正在逐步形成可迁移的推理模式

#不能泛化的模型会怎样?

不能泛化的模型通常 reward 很快饱和

  • 训练 reward 迅速拉满
  • 但测试集表现不涨,甚至下降
  • 后续继续 RL 基本没有意义

这意味着:

它学会的是如何在训练分布里拿到高 reward,而不是学会通用推理。

这是一个很有力量的判断标准,因为它反驳了一个常见误区:

“reward 漲了 = 模型学会了。”

论文明确表明:

reward 变高本身并不能说明模型在学推理;快速饱和反而常常是坏信号。


#核心发现 2:少量数据确实可以触发学习,但前提是模型有先验

论文中一个比较反直觉的结果是:

即使只有 8 个训练样本,也可能触发可观察的学习。

但作者强调,这不意味着 RL 有某种“凭空造能力”的神奇效果。

更合理的解释是:

  • 模型本来就已经有某种相关先验
  • RL 用极少样本把这些潜在能力调动出来
  • 真正限制泛化的不是“8 个样本太少”,而是模型有没有足够强的 pretraining prior

所以少样本下 RL 的效果,本质更像是:

对既有先验的提纯与激活,而不是从零开始学习。

这也解释了为什么:

  • Qwen 在数学和科学上更容易成功
  • Llama 在同样设定下更容易快速塌缩

#核心发现 3:决定成败的不是 diversity,而是 faithfulness

这一点非常重要。

很多人会自然猜:

模型之所以失败,是不是因为它探索不够、输出不够多样?

作者专门检验了这个假设,发现并不是这样。

#失败模型并不缺多样性

一些失败的 Llama 模型:

  • 并不缺输出 diversity
  • 甚至可以比 Qwen 更快拿到高训练 reward
  • 但泛化仍然很差

所以论文得出一个很关键的结论:

output diversity alone is uninformative

也就是:

输出多样性本身,不能作为弱监督 RL 是否真的在学习推理的可靠指标。


#什么才是关键?

答案是:

#Reasoning faithfulness

作者把它定义为:

模型的中间推理步骤在多大程度上逻辑上支撑最终答案。

也就是说,不是看最终答案对不对,而是看:

  • 这个答案是不是由前面的 reasoning 真正推出来的
  • 还是只是“答案对了,但推理是在瞎走”

如果模型经常出现下面这种情况:

  • 最终答案对了
  • 但中间过程并没有真正支撑这个答案
  • 或者 reasoning 有明显跳步、断裂、投机

那么它就是 低 faithfulness

论文的关键发现是:

低 faithfulness 的模型在弱监督 RL 下更容易快速饱和,并陷入“记忆而非学习”的状态。

换句话说:

  • 高 faithfulness 模型:reward 会强化真实推理路径,因而能泛化
  • 低 faithfulness 模型:reward 会强化“结果正确但过程不扎实”的捷径,因而更容易过拟合和投机

#为什么 Qwen 常成功、Llama 常失败

论文没有把这个问题简化成“模型品牌之争”,而是给出更有解释力的框架:

强领域相关预训练先验,会让模型更容易维持较长的 pre-saturation phase。

以 Qwen2.5-Math 为例:

  • 数学相关预训练更强
  • 因而在数学弱监督 RL 中,不容易立刻走向 reward 饱和
  • 有更多空间把 RL 奖励转化为可迁移的 reasoning patterns

而 Llama 的问题在于:

  • 在这些任务上领域先验不够强
  • 弱监督 reward 很快被模型“刷穿”
  • 于是训练集 reward 好看,但泛化上不去

在 Graph 任务上,这个现象甚至连 Qwen 都会变差,因为 Graph 类离散结构推理通常预训练暴露更少。

所以作者的真正结论是:

弱监督 RL 不是普适魔法,它高度依赖 base model 在该领域上的已有结构。


#核心发现 4:怎么救失败模型?

为了回答这个问题,作者做了一组非常有价值的干预实验。

他们选了一个表现最差的失败模型:

  • Llama3.2-3B-Base

然后分别研究两个方向:

#干预 A:Continual Pre-Training(CPT)

在领域数据上做持续预训练,增强模型的领域先验。

论文里主要在数学域做:

  • 用大规模数学语料继续预训练 Llama3.2-3B-Base

#干预 B:SFT

作者把 SFT 分成两种:

#1. Non-Thinking SFT

  • 只训练最终答案
  • 不教显式推理链

#2. Thinking SFT

  • 训练显式、验证过的 reasoning traces
  • 让模型学会把中间推理过程写出来

#最关键结论:Thinking SFT 是必要条件

作者最终发现:

SFT on explicit reasoning traces is necessary for generalization under weak supervision.

也就是说:

如果你只教 final answer,而不教显式推理过程,那么弱监督 RL 很难真正泛化。

这是非常实用的结论。

因为只学 final answer 的监督,本质上只告诉模型:

  • 目标输出长什么样
  • 正确答案该怎么格式化

但它没有告诉模型:

  • 为什么这个答案对
  • 推理路径该怎么展开
  • 哪种中间结构才是“好 reasoning”

于是模型到了弱监督 RL 阶段,仍然很容易走向捷径。

而 Thinking SFT 做的事情是:

  • 提升 reasoning faithfulness
  • 让模型在 RL 之前就具备更好的 reasoning skeleton
  • 使得 RL 奖励能够强化真实的推理路径,而不是投机模式

#CPT 的作用:放大器,而不是替代品

论文进一步指出:

Continual pre-training amplifies the effect, but does not substitute for Thinking SFT.

这句话也非常关键。

意思是:

  • 只做 CPT,不够
  • 只做 Thinking SFT,有帮助,但也有限
  • CPT + Thinking SFT 效果最好

它们之间更像是分工关系:

  • CPT:增强领域相关 prior
  • Thinking SFT:把 reasoning shape 教进去
  • Weak-supervision RL:在此基础上放大和细化

所以论文给出的最佳路线,不是“直接上 RL”,而是:

先补强领域先验,再补 reasoning trace,再做弱监督 RL。


#这篇论文真正重要的地方

我觉得这篇论文的价值,不只是做了一个实验现象统计,而是提供了一个统一的理解框架。

#1. 它解释了为什么很多弱监督 RL 结果不稳定

以前的很多结论看起来互相矛盾:

  • 极少数据有效
  • noisy reward 有效
  • proxy reward 有效
  • 但换个模型就不行

这篇论文把这些现象统一成:

问题不在监督形式本身,而在模型进入 RL 时所处的 regime。

也就是:

  • 是在长 pre-saturation 学习区
  • 还是在快速饱和记忆区

#2. 它把 faithfulness 从“解释性问题”拉成了“训练问题”

以前很多人讨论 reasoning faithfulness,更多是在:

  • 可解释性
  • 安全监控
  • chain-of-thought 是否可信

但这篇论文说明:

faithfulness 不只是为了可解释,它直接影响弱监督 RL 是否能泛化。

这让 faithfulness 变成了训练成败变量,而不只是一个附属分析指标。


#3. 它在纠正一种过度乐观叙事

过去容易出现一种说法:

“只要有 RL,哪怕奖励很弱,模型也能自己学会推理。”

这篇论文给出的答案明显更克制,也更可信:

RL 很多时候不是从零创造推理能力,而是在利用、提纯和放大已有先验。

如果模型没有这些先验,弱监督 RL 很可能只是把模型训练成一个更擅长拿 reward 的系统,而不是一个真正更会推理的系统。


#对工程实践的启发

如果你在训练自己的 reasoning model,这篇论文几乎给出了很明确的实践建议。

#建议 1:不要只盯 reward 曲线

除了训练 reward,还应该同步看:

  • saturation 是否来得太快
  • downstream eval 是否同步上涨
  • reasoning faithfulness 是否在提升

如果 reward 很快饱和,但评测不涨,那通常说明:

模型已经把能从当前 prior 中榨出的东西榨干了,继续堆 RL 只会事倍功半。


#建议 2:弱监督失败时,优先补 pre-RL training

与其盲目增加 RL 步数,不如先做:

  1. domain continual pre-training
  2. thinking SFT
  3. 再做 RLVR / weak supervision RL

论文明确支持这种资源分配逻辑。


#建议 3:不要把 diversity 当成唯一健康指标

高 diversity 不代表模型在学会推理。

你需要更关注:

  • reasoning 是否自洽
  • 中间步骤是否真正支撑答案
  • 模型是不是在靠捷径拿 reward

#建议 4:对 proxy rewards 要保持谨慎

像 majority vote 这类自监督代理奖励,看起来很省监督,但也最容易被 reward hacking。

如果模型本身 faithfulness 不高,那么 proxy reward 很可能只是把它推向更强的投机模式。


#我的评价

我觉得这篇论文是最近 RL for reasoning 方向里非常值得读的一篇机制性论文

它强的地方不在于提出了某个 flashy 的 trick,而在于:

  • 问题问得对
  • 实验设计比较系统
  • 给出了一套可解释框架
  • 工程指导意义很强

尤其是下面这个主张,我认为非常有启发性:

弱监督 RL 的成败,大部分在 RL 开始前就已经决定了。

这句话几乎可以当整篇论文的精神总结。


#这篇论文的局限

当然,这篇论文也不是没有限制。

#1. 任务域仍然偏“可验证推理”

主要还是数学、科学、图推理这类任务。

对更开放、更含糊、不可直接验证的复杂推理任务,这套结论是否原样成立,还需要更多研究。

#2. Faithfulness 的测量仍然依赖 judge

作者用了 LLM-as-a-judge 的方法去量化 reasoning faithfulness,这在今天是合理做法,但仍然是代理变量,不是完美真值。

#3. 模型规模范围有限

论文主要看的是中小规模开源模型。更大模型上大概率同样成立,但具体边界可能不同。


#最后总结

如果把整篇论文翻译成一句很直白的话,那就是:

弱监督 RL 不是不能教会模型推理,但前提是模型原本就“差不多会了”;否则它更可能学会的是投机。

而让模型从“差不多会了”变成“真的能学会”的关键,是两件事:

  1. 更强的领域相关 pretraining prior
  2. 显式 reasoning trace 的 SFT

然后,弱监督 RL 才会从“刷 reward”变成“学推理”。


#最精炼的 5 句 takeaways

  1. 弱监督 RL 是否泛化,关键看 reward 是慢慢涨还是很快饱和。
  2. 快速饱和通常意味着模型在记忆或投机,而不是在学习。
  3. 决定成败的关键前置属性是 reasoning faithfulness,而不是 output diversity。
  4. Thinking SFT 是必要条件;只教 final answer 不够。
  5. CPT + Thinking SFT + weak-supervision RL,是更靠谱的 reasoning 训练路径。