#When Can LLMs Learn to Reason with Weak Supervision? 论文详解
论文链接:<https://arxiv.org/abs/2604.18574>
这篇论文讨论的是一个现在非常关键、但也经常被说得过于乐观的问题:
大语言模型到底什么时候能在弱监督下,通过 RL 学会真正的推理?
作者给出的答案非常明确:
弱监督 RL 能否泛化,关键不在 RL 本身有多神,而在模型进入 RL 之前,是否已经具备足够强的领域先验和较高的 reasoning faithfulness(推理忠实性)。
换句话说,RL 并不总是在“创造推理能力”,更多时候是在“放大模型原本已经有、但没有被正确调动的能力”。如果底子不够,弱监督 RL 很容易只教会模型更快地记题、刷 reward,甚至学会投机。
#一句话总结
这篇论文的核心结论可以概括成 5 点:
- 弱监督 RL 是否泛化,取决于训练 reward 的饱和动力学。
- 快速 reward 饱和通常不是好事,往往意味着模型在记忆而不是学习。
- 决定成败的关键前置属性不是输出多样性,而是 reasoning faithfulness。
- 显式 reasoning trace 的 SFT 是必要条件;只学 final answer 不够。
- Continual pre-training 会放大 reasoning SFT 的效果,但不能替代它。
#研究背景:为什么这个问题重要
最近一波 reasoning model 的进展里,RLVR(reinforcement learning with verifiable rewards)是核心范式之一。
它的基本思路是:
- 不需要每一步都有人工监督
- 只要最终答案可验证
- 就能给一个 reward 去做强化学习
这套方法在数学、代码、逻辑题上都显得很强。
但问题也越来越明显:
- 有时只用极少数据也能起飞
- 有时 reward 很 noisy 也能涨
- 有时甚至用 self-supervised proxy rewards 也能有效
- 但这些结论换个模型族就不一定成立
所以真正的问题不是“弱监督 RL 行不行”,而是:
它什么时候真的在学推理,什么时候只是学会了拿 reward?
这篇论文就是在系统研究这件事。
#论文研究了什么
作者围绕三个问题展开:
#RQ1:弱监督下 RLVR 能不能泛化?
他们分别在三种弱监督设置下测试:
- Scarce data:数据极少
- Noisy rewards:奖励有噪声
- Self-supervised proxy rewards:自监督代理奖励
#RQ2:决定成败的 pre-RL 属性是什么?
也就是:
- 什么样的模型在 RL 之前就更容易在弱监督下学会推理
- 什么样的模型会迅速塌缩成训练集记忆器
#RQ3:如果模型失败了,怎么补救?
作者进一步研究:
- 持续预训练有没有用
- SFT 到底该教 reasoning trace 还是只教 final answer
#实验设置
#模型族
论文主要比较两类模型:
- Qwen 系列
- Llama 系列
一个关键点是,作者并不把结论粗暴说成“Qwen 比 Llama 更强”,而是把这种差异解释为:
不同模型具有不同强度的 pretraining prior(预训练先验)。
例如:
- Qwen2.5-Math 在数学上有更强的领域相关预训练
- Llama-3.2-Instruct 更偏通用 instruction-following
所以本质上,论文是在比较:
- 有强领域先验的模型
- 没有足够强领域先验的模型
#三个任务域
作者选择了三类推理任务:
- Math:预训练覆盖高
- Science:预训练覆盖中等
- Graph:通常预训练覆盖较弱
这个设计很重要,因为它能观察“领域先验”对弱监督 RL 的影响。
#三种弱监督情形
#1. Scarce Data
训练样本数量从非常小的规模开始,比如 8、32、64,一直到更大的规模。
问题是:
只靠几条训练样本,模型能不能学到可泛化的推理?
#2. Noisy Rewards
reward 被刻意污染或加入噪声。
问题是:
当奖励不再完全干净,模型还能不能学到正确的推理模式?
#3. Self-Supervised Proxy Rewards
不依赖标准真值校验,而用代理信号,比如多数投票(majority vote)这类 proxy rewards。
问题是:
模型会不会学会 reward hacking,而不是学会推理?
#核心发现 1:决定成败的,是 reward saturation dynamics
这是整篇论文最核心的 insight。
作者提出:
要理解弱监督 RL 是否真的在学习,不能只看 reward 有没有涨,而要看 reward 是如何涨、何时饱和。
他们把训练过程分成两段:
- Pre-saturation phase:reward 尚未饱和的阶段
- Post-saturation phase:reward 基本吃满之后的阶段
#能泛化的模型会怎样?
能泛化的模型通常有一个较长的 pre-saturation phase:
- reward 稳定上升
- 下游评测也一起上涨
- 说明模型正在逐步形成可迁移的推理模式
#不能泛化的模型会怎样?
不能泛化的模型通常 reward 很快饱和:
- 训练 reward 迅速拉满
- 但测试集表现不涨,甚至下降
- 后续继续 RL 基本没有意义
这意味着:
它学会的是如何在训练分布里拿到高 reward,而不是学会通用推理。
这是一个很有力量的判断标准,因为它反驳了一个常见误区:
“reward 漲了 = 模型学会了。”
论文明确表明:
reward 变高本身并不能说明模型在学推理;快速饱和反而常常是坏信号。
#核心发现 2:少量数据确实可以触发学习,但前提是模型有先验
论文中一个比较反直觉的结果是:
即使只有 8 个训练样本,也可能触发可观察的学习。
但作者强调,这不意味着 RL 有某种“凭空造能力”的神奇效果。
更合理的解释是:
- 模型本来就已经有某种相关先验
- RL 用极少样本把这些潜在能力调动出来
- 真正限制泛化的不是“8 个样本太少”,而是模型有没有足够强的 pretraining prior
所以少样本下 RL 的效果,本质更像是:
对既有先验的提纯与激活,而不是从零开始学习。
这也解释了为什么:
- Qwen 在数学和科学上更容易成功
- Llama 在同样设定下更容易快速塌缩
#核心发现 3:决定成败的不是 diversity,而是 faithfulness
这一点非常重要。
很多人会自然猜:
模型之所以失败,是不是因为它探索不够、输出不够多样?
作者专门检验了这个假设,发现并不是这样。
#失败模型并不缺多样性
一些失败的 Llama 模型:
- 并不缺输出 diversity
- 甚至可以比 Qwen 更快拿到高训练 reward
- 但泛化仍然很差
所以论文得出一个很关键的结论:
output diversity alone is uninformative
也就是:
输出多样性本身,不能作为弱监督 RL 是否真的在学习推理的可靠指标。
#什么才是关键?
答案是:
#Reasoning faithfulness
作者把它定义为:
模型的中间推理步骤在多大程度上逻辑上支撑最终答案。
也就是说,不是看最终答案对不对,而是看:
- 这个答案是不是由前面的 reasoning 真正推出来的
- 还是只是“答案对了,但推理是在瞎走”
如果模型经常出现下面这种情况:
- 最终答案对了
- 但中间过程并没有真正支撑这个答案
- 或者 reasoning 有明显跳步、断裂、投机
那么它就是 低 faithfulness。
论文的关键发现是:
低 faithfulness 的模型在弱监督 RL 下更容易快速饱和,并陷入“记忆而非学习”的状态。
换句话说:
- 高 faithfulness 模型:reward 会强化真实推理路径,因而能泛化
- 低 faithfulness 模型:reward 会强化“结果正确但过程不扎实”的捷径,因而更容易过拟合和投机
#为什么 Qwen 常成功、Llama 常失败
论文没有把这个问题简化成“模型品牌之争”,而是给出更有解释力的框架:
强领域相关预训练先验,会让模型更容易维持较长的 pre-saturation phase。
以 Qwen2.5-Math 为例:
- 数学相关预训练更强
- 因而在数学弱监督 RL 中,不容易立刻走向 reward 饱和
- 有更多空间把 RL 奖励转化为可迁移的 reasoning patterns
而 Llama 的问题在于:
- 在这些任务上领域先验不够强
- 弱监督 reward 很快被模型“刷穿”
- 于是训练集 reward 好看,但泛化上不去
在 Graph 任务上,这个现象甚至连 Qwen 都会变差,因为 Graph 类离散结构推理通常预训练暴露更少。
所以作者的真正结论是:
弱监督 RL 不是普适魔法,它高度依赖 base model 在该领域上的已有结构。
#核心发现 4:怎么救失败模型?
为了回答这个问题,作者做了一组非常有价值的干预实验。
他们选了一个表现最差的失败模型:
- Llama3.2-3B-Base
然后分别研究两个方向:
#干预 A:Continual Pre-Training(CPT)
在领域数据上做持续预训练,增强模型的领域先验。
论文里主要在数学域做:
- 用大规模数学语料继续预训练 Llama3.2-3B-Base
#干预 B:SFT
作者把 SFT 分成两种:
#1. Non-Thinking SFT
- 只训练最终答案
- 不教显式推理链
#2. Thinking SFT
- 训练显式、验证过的 reasoning traces
- 让模型学会把中间推理过程写出来
#最关键结论:Thinking SFT 是必要条件
作者最终发现:
SFT on explicit reasoning traces is necessary for generalization under weak supervision.
也就是说:
如果你只教 final answer,而不教显式推理过程,那么弱监督 RL 很难真正泛化。
这是非常实用的结论。
因为只学 final answer 的监督,本质上只告诉模型:
- 目标输出长什么样
- 正确答案该怎么格式化
但它没有告诉模型:
- 为什么这个答案对
- 推理路径该怎么展开
- 哪种中间结构才是“好 reasoning”
于是模型到了弱监督 RL 阶段,仍然很容易走向捷径。
而 Thinking SFT 做的事情是:
- 提升 reasoning faithfulness
- 让模型在 RL 之前就具备更好的 reasoning skeleton
- 使得 RL 奖励能够强化真实的推理路径,而不是投机模式
#CPT 的作用:放大器,而不是替代品
论文进一步指出:
Continual pre-training amplifies the effect, but does not substitute for Thinking SFT.
这句话也非常关键。
意思是:
- 只做 CPT,不够
- 只做 Thinking SFT,有帮助,但也有限
- CPT + Thinking SFT 效果最好
它们之间更像是分工关系:
- CPT:增强领域相关 prior
- Thinking SFT:把 reasoning shape 教进去
- Weak-supervision RL:在此基础上放大和细化
所以论文给出的最佳路线,不是“直接上 RL”,而是:
先补强领域先验,再补 reasoning trace,再做弱监督 RL。
#这篇论文真正重要的地方
我觉得这篇论文的价值,不只是做了一个实验现象统计,而是提供了一个统一的理解框架。
#1. 它解释了为什么很多弱监督 RL 结果不稳定
以前的很多结论看起来互相矛盾:
- 极少数据有效
- noisy reward 有效
- proxy reward 有效
- 但换个模型就不行
这篇论文把这些现象统一成:
问题不在监督形式本身,而在模型进入 RL 时所处的 regime。
也就是:
- 是在长 pre-saturation 学习区
- 还是在快速饱和记忆区
#2. 它把 faithfulness 从“解释性问题”拉成了“训练问题”
以前很多人讨论 reasoning faithfulness,更多是在:
- 可解释性
- 安全监控
- chain-of-thought 是否可信
但这篇论文说明:
faithfulness 不只是为了可解释,它直接影响弱监督 RL 是否能泛化。
这让 faithfulness 变成了训练成败变量,而不只是一个附属分析指标。
#3. 它在纠正一种过度乐观叙事
过去容易出现一种说法:
“只要有 RL,哪怕奖励很弱,模型也能自己学会推理。”
这篇论文给出的答案明显更克制,也更可信:
RL 很多时候不是从零创造推理能力,而是在利用、提纯和放大已有先验。
如果模型没有这些先验,弱监督 RL 很可能只是把模型训练成一个更擅长拿 reward 的系统,而不是一个真正更会推理的系统。
#对工程实践的启发
如果你在训练自己的 reasoning model,这篇论文几乎给出了很明确的实践建议。
#建议 1:不要只盯 reward 曲线
除了训练 reward,还应该同步看:
- saturation 是否来得太快
- downstream eval 是否同步上涨
- reasoning faithfulness 是否在提升
如果 reward 很快饱和,但评测不涨,那通常说明:
模型已经把能从当前 prior 中榨出的东西榨干了,继续堆 RL 只会事倍功半。
#建议 2:弱监督失败时,优先补 pre-RL training
与其盲目增加 RL 步数,不如先做:
- domain continual pre-training
- thinking SFT
- 再做 RLVR / weak supervision RL
论文明确支持这种资源分配逻辑。
#建议 3:不要把 diversity 当成唯一健康指标
高 diversity 不代表模型在学会推理。
你需要更关注:
- reasoning 是否自洽
- 中间步骤是否真正支撑答案
- 模型是不是在靠捷径拿 reward
#建议 4:对 proxy rewards 要保持谨慎
像 majority vote 这类自监督代理奖励,看起来很省监督,但也最容易被 reward hacking。
如果模型本身 faithfulness 不高,那么 proxy reward 很可能只是把它推向更强的投机模式。
#我的评价
我觉得这篇论文是最近 RL for reasoning 方向里非常值得读的一篇机制性论文。
它强的地方不在于提出了某个 flashy 的 trick,而在于:
- 问题问得对
- 实验设计比较系统
- 给出了一套可解释框架
- 工程指导意义很强
尤其是下面这个主张,我认为非常有启发性:
弱监督 RL 的成败,大部分在 RL 开始前就已经决定了。
这句话几乎可以当整篇论文的精神总结。
#这篇论文的局限
当然,这篇论文也不是没有限制。
#1. 任务域仍然偏“可验证推理”
主要还是数学、科学、图推理这类任务。
对更开放、更含糊、不可直接验证的复杂推理任务,这套结论是否原样成立,还需要更多研究。
#2. Faithfulness 的测量仍然依赖 judge
作者用了 LLM-as-a-judge 的方法去量化 reasoning faithfulness,这在今天是合理做法,但仍然是代理变量,不是完美真值。
#3. 模型规模范围有限
论文主要看的是中小规模开源模型。更大模型上大概率同样成立,但具体边界可能不同。
#最后总结
如果把整篇论文翻译成一句很直白的话,那就是:
弱监督 RL 不是不能教会模型推理,但前提是模型原本就“差不多会了”;否则它更可能学会的是投机。
而让模型从“差不多会了”变成“真的能学会”的关键,是两件事:
- 更强的领域相关 pretraining prior
- 显式 reasoning trace 的 SFT
然后,弱监督 RL 才会从“刷 reward”变成“学推理”。
#最精炼的 5 句 takeaways
- 弱监督 RL 是否泛化,关键看 reward 是慢慢涨还是很快饱和。
- 快速饱和通常意味着模型在记忆或投机,而不是在学习。
- 决定成败的关键前置属性是 reasoning faithfulness,而不是 output diversity。
- Thinking SFT 是必要条件;只教 final answer 不够。
- CPT + Thinking SFT + weak-supervision RL,是更靠谱的 reasoning 训练路径。