#大模型 OPD:经典工作、发展逻辑与最新问题
本文基于 5 轮 Codex 递进调研,并结合 arXiv、Thinking Machines OPD blog、AwesomeOPD 等资料交叉验证。这里的 OPD 默认指大模型语境里的 On-Policy Distillation。
#0. 一句话核心结论
OPD 本质上是在“大模型后训练”里,把 SFT/KD 的离线模仿,改造成类似 DAgger 的“学生自己走到哪里,老师就在哪里教它”的在线蒸馏范式。
它试图同时解决两个矛盾:
- SFT / offline KD 的问题:学生只在教师/人工轨迹上学习,但推理时会走到自己生成的状态,一旦走偏就没人教,错误会级联。
- RL / RLVR 的问题:RL 虽然 on-policy,但奖励通常太稀疏,只在最终答案对错处给信号,长链推理、工具调用、Agent 轨迹里 credit assignment 很难。
所以 OPD 想要的是:
on-policy 的状态分布
+
distillation 的稠密监督
=
学生在自己真实会遇到的前缀/状态上,得到教师的 token/step/sequence 级指导
这就是 OPD 这条线的核心价值。
#1. OPD 到底是什么?
#1.1 严格定义
给定 prompt x,学生模型 π_S 先生成自己的回答/轨迹:
y ~ π_S(. | x)
然后在学生实际生成出来的前缀状态:
s_t = (x, y_<t)
上,让教师 π_T 给监督信号,训练学生靠近教师。
白盒 token-level OPD 常见目标可写成:
L_OPD = E_{x~D, y~π_S(.|x)} [ Σ_t D( π_S(.|s_t), π_T(.|s_t) ) ]
其中 D 可以是:
- reverse KL
- forward KL
- Jensen-Shannon divergence
- top-k / truncated KL
- sampled reverse KL
- token-level log-prob loss
- step-level distillation loss
- sequence-level verbal / rubric / discriminator reward
最严格的 OPD 一般要求两个条件:
C1: student samples its own trajectories.
C2: teacher provides supervision on those student trajectories.
#1.2 人话解释
普通 SFT 像是:
老师写一篇标准答案,学生照着抄。
OPD 像是:
学生自己先做题。他做到哪一步,老师就在那一步看他的当前状态,然后告诉他:“你现在这个前缀下,下一步更应该怎么走。”
这和 Agent / 长链推理特别相关,因为长链任务里最难的不是“看标准答案”,而是:
模型一旦前面走错一点,后面状态分布就和训练数据完全不一样了。这时候传统 SFT/KD 不知道怎么救它。
OPD 正是想在“学生自己会走到的状态”上训练。
#2. OPD 和 SFT、offline KD、DPO、RL 的关系
| 方法 | 数据来自哪里 | 反馈粒度 | 是否 on-policy | 核心问题 |
|---|---|---|---|---|
| SFT | 人工/教师标准答案 | token CE | 否 | 学生只学标准轨迹,自己走偏后没人教 |
| Offline KD / SeqKD | 教师预生成数据或固定 logits | token/sequence | 否 | 训练分布和推理分布错位 |
| DPO | 固定偏好对 | sequence preference | 通常否 | 不是学生当前 rollout,且反馈不稠密 |
| PPO / GRPO / RLVR | 学生 rollout | outcome reward | 是 | 奖励稀疏,credit assignment 难 |
| OPD | 学生 rollout | token/step/sequence dense signal | 是 | 成本高,教师信号可靠性/稳定性难 |
| OPD + RL hybrid | 学生 rollout | dense teacher + sparse reward | 是 | 如何平衡 imitation 和 exploration |
#2.1 OPD vs SFT
SFT 学的是:
p(y_teacher | x)
OPD 学的是:
在 y_student 的前缀状态下,教师会怎么继续
区别非常关键。
SFT 只告诉学生“正确答案长什么样”;OPD 还告诉学生:
当你已经走到这个尴尬/错误/偏离的状态时,下一步怎么修。
这就是它和 DAgger / imitation learning 的关系。
#2.2 OPD vs offline KD
Offline KD 一般是在固定数据集上蒸馏:
x, y_teacher
或者固定 teacher logits。
问题是学生训练时看到的状态来自教师,推理时状态来自自己。长链任务中,这个 mismatch 会快速放大。
OPD 把蒸馏分布换成:
y ~ π_student
也就是学生自己的分布。
#2.3 OPD vs RL
RL 也是学生自己 rollout,所以也是 on-policy。但 RL 通常只有最终 reward:
答案对了 +1
答案错了 0
这对长链推理很痛苦,因为模型不知道:
- 哪一步开始错?
- 哪个 token 是关键?
- 工具调用错在哪里?
- 中间 reasoning 是否可修?
OPD 给的是更稠密的信号,例如每个 token 都有 teacher logprob / KL / verbal score。
所以 OPD 可以看作:
RL 的 on-policy 分布
+
KD 的 dense supervision
#2.4 OPD vs DPO
DPO 是 preference optimization,通常基于固定偏好对:
chosen vs rejected
它不天然要求学生当前 rollout,也不是 token-level teacher feedback。
如果把偏好模型、judge、rubric 或 teacher 用在学生当前 rollout 上,那就会进入 OPD-RL hybrid 或 black-box OPD 的范畴。
#3. 发展脉络:OPD 为什么会出现?
我觉得 OPD 的发展可以理解为 6 个阶段。
1. SFT/KD 只学标准轨迹
↓
2. 长序列推理时学生会进入自己的错误状态
↓
3. DAgger 启发:在学生访问状态上问专家
↓
4. GKD/MiniLLM 把这个思想变成 LLM OPD
↓
5. Qwen3/Thinking Machines 把 OPD 工程化为后训练 recipe
↓
6. 2026 年研究开始处理 OPD 的真实困难:
- teacher 不可靠
- KL 不稳定
- tokenizer 不匹配
- 成本太高
- 黑盒 teacher
- 长链 Agent credit assignment
- 跨模态能力迁移
- 隐私与安全
更抽象地说,OPD 的范式转变是:
从“学老师给出的答案”
到“学老师在我当前状态下会怎么想”
这是一个很大的变化。因为对 LLM Agent 来说,真正重要的不是静态答案,而是:
状态 -> 决策 -> 新状态 -> 决策 -> ...
OPD 正好把训练信号放在这个动态闭环里。
#4. 阶段一:问题根源——exposure bias 与 imitation learning
#4.1 DAgger
代表工作:
- Ross et al., 2011, A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
https://arxiv.org/abs/1011.0686
它之前的问题是什么?
传统 imitation learning 只在专家轨迹上训练。但学习者部署时会犯错,一旦犯错,就进入专家数据里很少出现的状态。这叫 distribution shift / covariate shift。
核心直觉是什么?
不要只在专家状态上教学生。要让学生自己跑,然后在学生访问到的状态上问专家:
student visits state -> expert labels action -> aggregate data -> retrain
这就是 DAgger。
和 OPD 的关系。
OPD 基本就是把 DAgger 的思想搬进 LLM 自回归生成:
机器人状态 s
≈
LLM 当前前缀 (x, y_<t)
专家 action
≈
教师下一 token / 下一步 reasoning / rubric feedback
#4.2 Scheduled Sampling 与 exposure bias
代表工作:
- Bengio et al., 2015, Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks
https://arxiv.org/abs/1506.03099
语言模型训练时常用 teacher forcing:
训练时:给模型真实前缀
推理时:给模型自己生成的前缀
这会导致训练-推理不一致。OPD 不是简单随机混合 ground-truth token 和 model token,而是更进一步:
模型自己生成完整轨迹,然后教师在这些轨迹上提供监督。
#5. 阶段二:传统 KD 到 LLM OPD 的转折
#5.1 Knowledge Distillation 基础
代表工作:
- Hinton et al., 2015, Distilling the Knowledge in a Neural Network
https://arxiv.org/abs/1503.02531
这篇工作提出用 teacher soft distribution 训练 student,而不是只用 hard label。它给 OPD 提供了“教师分布监督”的基础。
#5.2 Sequence-Level KD
代表工作:
- Kim & Rush, 2016, Sequence-Level Knowledge Distillation
https://aclanthology.org/D16-1139/
它把蒸馏从分类扩展到序列生成。但它仍然是离线的:教师先生成序列,学生再学。
遗留问题是:学生还是没在自己生成的错误前缀上接受训练。所以长序列下 exposure bias 仍然存在。
#6. 阶段三:LLM OPD 的两个种子工作,2023/2024
#6.1 MiniLLM:reverse KL + on-policy LLM distillation
代表工作:
- Gu et al., 2023/ICLR 2024, MiniLLM: Knowledge Distillation of Large Language Models
https://arxiv.org/abs/2306.08543
注:AwesomeOPD 等索引将其列为 OPD 早期代表。arXiv 摘要明确批评 previous KD primarily applied on teacher-generated data,强调解决 exposure bias。
它之前的问题是什么?
传统 KD 往往在 teacher-generated responses 上训练。学生推理时生成自己的前缀,一旦偏离 teacher 轨迹,teacher-forced KD 的监督就不适用了。
核心方法。
MiniLLM 使用 reverse KL / policy-gradient 风格的优化,让学生在更接近自身生成分布的状态上学习。
为什么 reverse KL 重要?
Forward KL:
KL(teacher || student)
倾向 mode-covering:学生要覆盖教师的多种可能输出。
Reverse KL:
KL(student || teacher)
倾向 mode-seeking:学生更专注于教师认为高概率的区域。
对小模型蒸馏来说,reverse KL 更像是在说:
你容量有限,不要试图覆盖老师所有可能性,先学老师最确信、最有用的模式。
留下的新问题。
reverse KL 可能:
- 降低多样性;
- 在 teacher 高熵 token 上不稳定;
- 放大 sampled-token estimator 的方差;
- 对 teacher calibration 敏感。
这直接引出后面的 Entropy-Aware OPD、SCOPE、vOPD 等工作。
#6.2 GKD:正式把 self-generated mistakes 变成 LLM OPD 经典问题
代表工作:
- Agarwal et al., 2023/ICLR 2024, On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes
https://arxiv.org/abs/2306.13649
之前的问题。
KD 通常训练学生模仿教师生成结果,但学生真实推理时会犯自己的错误。如果这些错误状态从未出现在训练中,模型就不会恢复。
核心直觉。
让学生自己生成,然后教师在学生自己生成的输出上给反馈。这就是标题里的:
Learning from Self-Generated Mistakes
具体贡献。
GKD / Generalized Knowledge Distillation 提供了一个统一框架:
- 可以混合 teacher-generated data 和 student-generated data;
- 可以使用不同 divergence;
- 明确强调 on-policy distillation 的价值。
推动下一阶段。
GKD 让 OPD 从一个直觉变成 LLM 后训练的正式范式:
offline KD -> on-policy KD / OPD
#7. 阶段四:工业化配方,2025
#7.1 Qwen3:OPD 进入大模型后训练 recipe
代表工作:
- Qwen Team, 2025, Qwen3 Technical Report
https://arxiv.org/abs/2505.09388
Qwen3 把 OPD 变成工业级 strong-to-weak distillation recipe 的一部分。典型流程可以理解为:
off-policy distillation / SFT cold start
↓
student 已经有基本能力
↓
on-policy KL/logit alignment
↓
学生在自己 rollout 状态上继续向强 teacher 对齐
如果一开始学生太弱,直接 on-policy 会陷入低质量轨迹。所以 Qwen3 式配方通常先用 off-policy 让学生进入 reasonable support,再用 OPD 精修。
这给后续很多工作一个共识:
OPD 不一定替代 SFT/offline KD,而是常常接在它们之后。SFT 负责“把学生带上路”,OPD 负责“在学生自己的路上纠偏”。
#7.2 Thinking Machines Lab:把 OPD 工程化解释成 RL trainer 里的 dense distillation
代表来源:
- Kevin Lu et al., 2025, On-Policy Distillation
https://thinkingmachines.ai/blog/on-policy-distillation/
这篇 blog 对社区影响很大,因为它把 OPD 讲得非常工程化:
在 RL 训练里,我们本来就有 student rollout。原来 KL 是约束 student 不要偏离 reference model。那如果 reference 换成更强 teacher,不就得到 OPD 了吗?
也就是:
RL pipeline:
student rollout + sparse reward + KL to reference
OPD-style:
student rollout + dense KL/logprob from stronger teacher
这让 OPD 从“蒸馏论文里的方法”变成“后训练系统里的一个模块”。
#8. 阶段五:2026 爆发——OPD 从方法变成研究方向
2026 年 OPD 的论文爆发,本质上说明社区已经不再问:
OPD 有没有用?
而是在问:
OPD 为什么有用?什么时候失败?怎么更便宜?怎么黑盒化?怎么用于 Agent / 多模态 / 长上下文?
下面按方法家族梳理。
#9. 白盒 token/logit OPD 路线
#9.1 Rethinking OPD:机制、现象与 recipe
代表工作:
- Li et al., 2026, Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
https://arxiv.org/abs/2604.13016
这篇工作想回答:
- 为什么 OPD 有时有效?
- 为什么有时不如 SFT?
- 什么时候 teacher 能教会 student?
- 学生和教师的 thinking pattern 不兼容怎么办?
其核心意义在于把 OPD 从经验 recipe 推向机制研究。一个重要共识是:OPD 的成功通常需要学生和教师 thinking pattern 有一定兼容性,且教师必须提供学生没有的新能力;实践上常需要 off-policy cold start 和 teacher-aligned prompt selection。
#9.2 Revisiting OPD:失败模式与简单修复
代表工作:
- Fu et al., 2026, Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
https://arxiv.org/abs/2603.25562
标准 sampled-token OPD 可能非常脆弱。该工作诊断了几个失败模式:
- imbalanced one-token signal:单 token 信号不均衡,长链上信号太局部。
- unreliable prefix guidance:学生前缀偏离后,教师在这个陌生前缀上的指导可能不可靠。
- tokenizer / special-token mismatch:不同模型族、特殊 token、模板格式会导致 KL 信号错位。
修复方向包括:
- teacher top-K local support matching;
- top-p rollout sampling;
- special-token masking;
- 更谨慎地处理教师概率分布。
它指出:
OPD 不是“学生 rollout + teacher KL”这么简单。关键是教师在学生状态上是否真的可靠。
#9.3 Entropy-Aware OPD:处理 teacher uncertainty
代表工作:
- Jin et al., 2026, Entropy-Aware On-Policy Distillation of Language Models
https://arxiv.org/abs/2603.07079
Reverse KL 在 teacher 低熵、明确知道答案时很好。但当 teacher 分布高熵时,强行 mode-seeking 可能会过度压缩多样性。
核心直觉是:
如果 teacher 很确定:用 reverse KL,鼓励学生学主要模式
如果 teacher 不确定:加入 forward KL / entropy-aware adjustment,别过度坍缩
这使“教师不是永远可靠/确定”成为 OPD 中的显式研究对象。
#9.4 vOPD / KL for a KL:降低 OPD 方差
代表工作:
- Oh et al., 2026, KL for a KL: On-Policy Distillation with Control Variate Baseline
https://arxiv.org/abs/2605.07865
On-policy sampling 带来高方差,尤其 sampled reverse KL 只看采样 token,梯度估计不稳定。该工作把 OPD 看成 policy-gradient 式目标,并引入 control variate baseline,降低方差。
它说明:
OPD 不只是 KD
OPD 也是一种 on-policy policy optimization
#10. 黑盒 OPD:没有 teacher logits 怎么办?
现实里最强 teacher 往往是闭源 API。拿不到 logits,只能拿文本、评分、偏好、rubric。这推动了 black-box OPD。
#10.1 GAD / Black-Box OPD
代表工作:
- Ye et al., 2025, Black-Box On-Policy Distillation of Large Language Models
https://arxiv.org/abs/2511.10643
白盒 OPD 需要 teacher logits,但 GPT-5、Claude、Gemini 这类强 teacher 通常只给文本输出。GAD 的思路是训练一个 discriminator 区分:
teacher response vs student response
这个 discriminator 就变成 on-policy reward model。学生生成样本,判别器给信号,学生再优化。
这把 OPD 从概率分布匹配扩展成 teacher behavior matching。但新问题是:discriminator 是否可靠?会不会 reward hacking?判别器和学生共同训练是否稳定?它学到的是“质量”还是“教师风格”?
#10.2 OVD:On-policy Verbal Distillation
代表工作:
- Xiong et al., 2026, OVD: On-policy Verbal Distillation
https://arxiv.org/abs/2601.21968
白盒 token-level KL 需要 logits,内存成本高,tokenizer 对齐困难,跨模型族不方便。OVD 的直觉是不用 logits,而让 teacher 用自然语言/离散分数评价学生生成,例如 0-9 verbal score。
OVD 把 OPD 从“概率蒸馏”推向“语义蒸馏”。
#10.3 ROPD:Rubric-based OPD
代表工作:
- Fang et al., 2026, Rubric-based On-policy Distillation
https://arxiv.org/abs/2605.07396
单一 verbal score 可能太粗,不同 prompt 需要不同评价标准。ROPD 从 teacher/student 对比中生成 prompt-specific rubric,然后用 rubric 对学生 rollout 进行 on-policy 反馈。
这对 Agent 很重要,因为 Agent 任务里“好坏”通常不是一个简单答案,而是:
- 是否完成目标;
- 是否遵守约束;
- 是否少调用工具;
- 是否可恢复;
- 是否安全。
#11. OPSD:On-Policy Self-Distillation,自蒸馏路线
#11.1 Self-Distilled Reasoner
代表工作:
- Zhao et al., 2026, Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
https://arxiv.org/abs/2601.18734
OPSD 问的是:能不能不依赖外部强 teacher?
方法是让同一个模型扮演 teacher 和 student,但 teacher 获得 privileged context:
student: 正常上下文
teacher: 有额外信息 / verified trace / answer / 更长上下文
然后在学生 rollout 上做蒸馏。人话讲,不是“老师比学生聪明”,而是:
同一个人,一个版本开卷,一个版本闭卷。开卷版本教闭卷版本。
这对推理压缩、长上下文压缩、Agent memory 很有启发:
test-time 有很多辅助信息
但部署时不想一直带这么多上下文
于是把 privileged context 下的行为蒸回普通模型
风险是 OPSD 可能学不到真正可泛化策略,只是在记 privileged information 的局部模式。后续 The Many Faces of OPD 也讨论了 OPSD 的失败机制。
#12. OPD + RL 统一路线
#12.1 G-OPD / ExOPD
代表工作:
- Yang et al., 2026, Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
https://arxiv.org/abs/2602.12125
这篇工作问:OPD 是不是只能模仿 teacher?能不能超过 teacher?
其核心是把 OPD 解释为 dense KL-constrained RL 的特例,并引入 reward extrapolation,让学生不只是贴近 teacher,而是能在某些方向上外推。
它模糊了 OPD 和 RL 的边界:
OPD = dense teacher-shaped RL
RL = sparse outcome-driven OPD-like optimization
但“超越教师”也有风险:如果 teacher 是 alignment anchor,那么“超越”可能也意味着“脱锚”。
#12.2 SCOPE:Signal-Calibrated OPD
代表工作:
- Zheng et al., 2026, SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
https://arxiv.org/abs/2604.10688
RL 的 outcome reward 稀疏,OPD 的 token-level feedback 稠密,但不是所有 token feedback 都一样可靠。SCOPE 把轨迹分成:
正确轨迹
错误轨迹
然后使用不同路径加权:
- 错误轨迹:更依赖 teacher perplexity / KL;
- 正确轨迹:可以更信学生自身行为,用 MLE / student-PPL 加权;
- group-level normalization 稳定训练。
SCOPE 代表 OPD 的一个重要方向:
不只是蒸馏,而是校准蒸馏信号。
#12.3 Long-context OPD / Distilled GRPO
代表工作:
- Ramos et al., 2026, Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models
https://arxiv.org/abs/2605.12227
长上下文推理里,SFT/KD 有 exposure bias,RLVR reward 太稀疏,长链中间状态难 credit assignment。该工作把 GRPO 的 outcome reward 和 OPD 的 dense teacher guidance 结合,形成 Distilled GRPO。
这是 OPD 对长上下文 / 长链 Agent 任务的自然延伸。
#13. 多模态、跨模态与 Agent OPD
#13.1 X-OPD:Speech LLM 跨模态 OPD
代表工作:
- Cao et al., 2026, X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs
https://arxiv.org/abs/2603.24596
端到端 Speech LLM 虽然更自然,但能力往往弱于 text LLM。X-OPD 让 speech student 在自己的 speech/text trajectory 上接受 text teacher 的反馈。
OPD 不再只用于小模型压缩,也用于:
能力从强文本模型迁移到其他模态模型
#13.2 Uni-OPD:统一 OPD recipe
代表工作:
- Hou et al., 2026, Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe
https://arxiv.org/abs/2605.03677
Uni-OPD 认为 OPD 有两个核心瓶颈:
- 学生侧:informative states 探索不足——学生 rollout 不一定覆盖最有学习价值的状态。
- 教师侧:supervision 不可靠——teacher token-level feedback 不一定和 outcome correctness 一致。
因此提出 dual-perspective recipe:
student-side exploration / data balancing
+
teacher-side outcome-guided margin calibration
它试图从“单个方法”上升到“统一配方”。
#13.3 SOD:Step-wise OPD for Small Language Model Agents
代表工作:
- Zhong et al., 2026, SOD: Step-wise On-policy Distillation for Small Language Model Agents
https://arxiv.org/abs/2605.07725
Agent / tool-integrated reasoning 不只是生成文本,而是:
think -> call tool -> observe -> think -> call tool ...
错误会跨 step 级联。一个错误 tool call 可能导致后面全错。SOD 按推理步骤度量 student-teacher divergence,并自适应调节蒸馏强度。
这代表 OPD 从 token-level 往 step-level / trajectory-level Agent 训练推进。对 long-horizon agent RL 很关键,因为它提示:
对 Agent 来说,token-level KL 可能粒度太细,outcome reward 又太粗。step-wise OPD 可能是中间层级。
#14. 隐私、安全与效率方向
#14.1 DP-OPD
代表工作:
- Khadem et al., 2026, DP-OPD: Differentially Private On-Policy Distillation for Language Models
https://arxiv.org/abs/2604.04461
私有语料上训练大模型/学生模型,需要 formal privacy。但 DP-SGD 直接训练大模型代价高,效果差。DP-OPD 的直觉是:冻结 teacher,让 teacher 在学生轨迹上提供 dense targets,DP-SGD 只作用在学生训练上。
未解决的问题包括:
- teacher 是否泄露私有信息?
- student 是否记忆敏感样本?
- 闭源 teacher API 的合规边界?
- DP 与 OPD 效率如何权衡?
#14.2 Fast OPD / Prefix OPD
代表工作:
- Zhang et al., 2026, Fast and Effective On-policy Distillation from Reasoning Prefixes
https://arxiv.org/abs/2602.15260
OPD 成本高:
student rollout
+
teacher forward/logprob
+
long reasoning sequence KL
该工作发现训练信号可能集中在 reasoning prefix,只蒸馏前缀就能大幅降低成本。
OPD 工程化的核心瓶颈是成本。Prefix OPD 是非常直接的效率优化方向。
#14.3 Lightning OPD
代表工作:
- Wu et al., 2026, Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
https://arxiv.org/abs/2604.13010
在线 OPD 需要 live teacher server,基础设施成本高。Lightning OPD 用 offline / cached 的方式近似 on-policy distillation,降低 teacher serving 成本。
它名字里叫 Offline On-Policy Distillation,本身就体现了一个新矛盾:
越 offline,越便宜稳定;
越 online,越贴近学生当前分布。
未来很多工程工作会在这个 trade-off 上做文章。
#15. 经典/代表工作时间线
| 时间 | 工作 | 核心贡献 | 链接 |
|---|---|---|---|
| 2011 | DAgger | 在学习者访问状态上查询专家,OPD 的 imitation learning 根源 | https://arxiv.org/abs/1011.0686 |
| 2015 | Scheduled Sampling | 暴露 teacher forcing vs 自回归推理的 exposure bias | https://arxiv.org/abs/1506.03099 |
| 2015 | Knowledge Distillation | soft teacher distribution 蒸馏基础 | https://arxiv.org/abs/1503.02531 |
| 2016 | Sequence-Level KD | 序列生成蒸馏基础,但仍偏 offline | https://aclanthology.org/D16-1139/ |
| 2023/2024 | MiniLLM | reverse KL / LLM on-policy distillation 早期代表 | https://arxiv.org/abs/2306.08543 |
| 2023/2024 | GKD / On-Policy Distillation of LMs | 学生 self-generated outputs 上接受教师反馈,LLM OPD 经典种子 | https://arxiv.org/abs/2306.13649 |
| 2025 | Qwen3 Technical Report | strong-to-weak:off-policy cold start + on-policy KL/logit 对齐 | https://arxiv.org/abs/2505.09388 |
| 2025 | Thinking Machines OPD blog | 工程化解释 OPD,强调 dense supervision + on-policy | https://thinkingmachines.ai/blog/on-policy-distillation/ |
| 2025 | Black-Box OPD / GAD | 用 discriminator 做黑盒 on-policy distillation | https://arxiv.org/abs/2511.10643 |
| 2026-01 | OPSD / Self-Distilled Reasoner | 同模型 privileged context 自蒸馏 | https://arxiv.org/abs/2601.18734 |
| 2026-01 | OVD | 用 verbal score 替代 teacher logits | https://arxiv.org/abs/2601.21968 |
| 2026-02 | G-OPD / ExOPD | 把 OPD 统一到 dense KL-constrained RL,尝试超越教师 | https://arxiv.org/abs/2602.12125 |
| 2026-02 | Fast OPD | reasoning prefix 蒸馏,降低成本 | https://arxiv.org/abs/2602.15260 |
| 2026-03 | Entropy-Aware OPD | 处理 teacher high-entropy 下 reverse KL 问题 | https://arxiv.org/abs/2603.07079 |
| 2026-03 | X-OPD | 跨模态 OPD,text teacher 到 speech LLM | https://arxiv.org/abs/2603.24596 |
| 2026-03 | Revisiting OPD | 系统诊断 sampled-token OPD 失败模式 | https://arxiv.org/abs/2603.25562 |
| 2026-04 | OPD Survey | 系统综述 OPD for LLMs | https://arxiv.org/abs/2604.00626 |
| 2026-04 | DP-OPD | differential privacy + OPD | https://arxiv.org/abs/2604.04461 |
| 2026-04 | SCOPE | signal calibration + dual-path adaptive weighting | https://arxiv.org/abs/2604.10688 |
| 2026-04 | Rethinking OPD | 机制、现象、recipe 分析 | https://arxiv.org/abs/2604.13016 |
| 2026-04 | Lightning OPD | offline/cached OPD 降低成本 | https://arxiv.org/abs/2604.13010 |
| 2026-05 | Uni-OPD | 学生探索 + 教师校准的统一 recipe | https://arxiv.org/abs/2605.03677 |
| 2026-05 | ROPD | rubric-based black-box OPD | https://arxiv.org/abs/2605.07396 |
| 2026-05 | SOD | step-wise OPD for small LM agents | https://arxiv.org/abs/2605.07725 |
| 2026-05 | vOPD / KL for a KL | control variate baseline 降低 OPD 方差 | https://arxiv.org/abs/2605.07865 |
| 2026-05 | The Many Faces of OPD | OPD/OPSD 失败机制、pitfalls、fixes | https://arxiv.org/abs/2605.11182 |
| 2026-05 | Long-context OPD / dGRPO | OPD + GRPO 用于长上下文推理 | https://arxiv.org/abs/2605.12227 |
#16. 方法分类总表
| 类别 | 代表工作 | 核心信号 | 解决的问题 | 主要风险 |
|---|---|---|---|---|
| 白盒 OPD | GKD, MiniLLM, Qwen3 | teacher logits / KL | 稠密 token 监督 | 成本高、tokenizer mismatch、teacher uncertainty |
| 黑盒 OPD | GAD, OVD, ROPD | discriminator / verbal score / rubric | 不依赖 logits | judge bias、reward hacking |
| OPSD | Self-Distilled Reasoner, CRISP 等 | privileged context self-teacher | 降低外部 teacher 依赖 | 学到 shortcut,不泛化 |
| OPD + RL | G-OPD, SCOPE, dGRPO | dense KL + sparse reward | 结合探索与稠密监督 | imitation 和 exploration 平衡难 |
| 高效 OPD | Fast OPD, Lightning OPD | prefix / cached teacher signal | 降低 teacher serving 成本 | 偏离真正 online 分布 |
| 跨模态 OPD | X-OPD, Uni-OPD | text teacher -> speech/VLM | 能力迁移 | 对齐粒度与模态差异 |
| Agent OPD | SOD | step-wise teacher signal | 工具调用/长轨迹 credit assignment | feedback 昂贵、step 边界难定义 |
| 隐私 OPD | DP-OPD | DP student + frozen teacher | 私有数据压缩 | teacher leakage、utility loss |
#17. 当前最新存在的问题
#17.1 教师在学生状态上不一定可靠
OPD 的一个隐含假设是:
teacher 在 student-generated prefix 上仍然知道怎么教。
但这不总成立。学生前缀可能很怪,教师在这种 off-manifold prefix 上的 logits 可能:
- 不稳定;
- miscalibrated;
- 和最终 outcome 不一致;
- 只是“补救当前文本”,而不是教真正策略。
这是 Revisiting OPD、Uni-OPD、SCOPE、The Many Faces of OPD 都在处理的问题。
#17.2 token-level KL 不一定等价于任务成功
尤其在数学、代码、Agent 中:
teacher token probability 高
≠
最终任务一定成功
可能存在:
- 多条正确 reasoning path;
- 低概率但正确的创新路径;
- 教师风格偏好;
- token-level imitation 抑制探索。
这也是 OPD + RL hybrid 出现的原因。
#17.3 OPD 会不会限制学生超越教师?
经典 distillation 容易被认为只能模仿教师。G-OPD/ExOPD 试图突破这个限制。
但这带来新问题:
超过教师
vs
偏离安全/对齐边界
如果 teacher 是 alignment anchor,那么“超越”可能也意味着“脱锚”。
#17.4 学生探索不足
OPD 只在学生自己访问的状态上训练。如果学生太弱,它访问不到高价值状态,OPD 就会在低质量区域循环。
所以实践中常需要:
- off-policy cold start;
- SFT warmup;
- curriculum;
- teacher-guided prompt selection;
- RL exploration;
- best-of-N / rejection sampling;
- multi-rollout comparison。
这对 long-horizon Agent 尤其重要。
#17.5 成本问题非常现实
OPD 需要:
student rollout
+
teacher forward / teacher logits
+
可能还要 verifier / judge
+
多轮在线更新
成本很容易爆炸。因此 Fast OPD、Lightning OPD、truncated KL、top-k KL、prefix OPD、cached OPD 都是必然方向。
关键是未来需要公平比较:
- 是否计入 teacher serving?
- 是否计入 rollout generation?
- 是否计入失败样本过滤?
- 是否计入 verifier?
- 是否计入通信与并行效率?
#17.6 黑盒 OPD 的 judge/rubric 偏差
GAD、OVD、ROPD 解决了 logits 不可得的问题,但引入新问题:
- judge 偏差;
- discriminator overfitting;
- rubric 不完整;
- reward hacking;
- teacher 风格模仿大于能力迁移;
- black-box API 的蒸馏合规问题。
#17.7 Agent 场景下 credit assignment 仍远未解决
Agent 轨迹不是普通文本序列,而是:
observation -> thought -> action/tool -> environment -> observation ...
token-level OPD 太细,outcome reward 太粗。SOD 的 step-wise OPD 是一个好开端,但还不够。
开放问题包括:
- step 边界怎么定义?
- teacher 应该评价 thought、action 还是 observation usage?
- 工具调用失败时如何定位责任?
- 多轮环境中 teacher feedback 成本如何控制?
- 是否需要 world-model / model-based OPD?
#17.8 OPSD 是否真的学到可泛化策略?
OPSD 很诱人,因为不需要外部 teacher。但它可能只是把 privileged context 的局部答案蒸进去,而不是学到通用策略。
例如:
有答案时能解释
不代表无答案时能推理
这对 latent reasoning / context compression 很关键:
把 privileged context 下的行为蒸回模型,到底是在学“压缩后的充分状态”,还是在学“数据集 shortcut”?
#18. 对 LLM Agent / model-based RL / latent reasoning 的启发
#18.1 Agent OPD 的层级 credit assignment
当前 OPD 多数还是 token-level。但 Agent 需要:
token-level
step-level
subgoal-level
trajectory-level
多层反馈。可以研究:
如何把 teacher feedback 分解到 Agent 的 action、observation usage、memory update、planning step 上?
这可能比简单 GRPO 更适合长轨迹 Agent。
#18.2 Model-based OPD:用世界模型生成“教师可评价状态”
OPD 最大问题之一是学生探索不足。如果有 world model / environment model,可以 imagination rollout 出更多状态,再让 teacher 或 verifier 给反馈。
这会变成:
student policy
→ imagined trajectories
→ teacher/verifier feedback
→ dense distillation / policy update
这和 Dreamer for LLM Agent 很契合。
#18.3 Latent OPD:不要蒸 token,蒸“决策充分状态”
Token-level KL 可能太表层。真正重要的是:
当前任务状态表示
下一步意图
计划结构
工具选择依据
可以想象 Latent OPD:
teacher latent state / plan representation
→ student latent state
而不是只匹配 token。
#18.4 Decision-sufficient OPD
不是所有 token 都值得蒸。真正重要的是决策点:
- 选择方法;
- 选择工具;
- 选择检索 query;
- 判断是否停止;
- 判断是否反思;
- 判断是否调用 verifier。
研究问题:
如何自动识别 OPD 中的 decision-critical tokens / steps?
Fast OPD 的 prefix idea 是一个初步方向,但更 general 的版本应该是 decision-sufficient distillation。
#18.5 Teacher reliability as uncertainty modeling
目前很多 OPD 失败来自 teacher 在 student prefix 上不可靠。可以研究:
teacher confidence
teacher-student support overlap
prefix abnormality
outcome consistency
并用这些量控制是否蒸馏、蒸多少、蒸哪一层。
这本质上是 OPD 里的 uncertainty-aware / calibration-aware learning。
#19. 建议阅读路径
#入门先读
- GKD: https://arxiv.org/abs/2306.13649
- MiniLLM: https://arxiv.org/abs/2306.08543
- Thinking Machines OPD blog: https://thinkingmachines.ai/blog/on-policy-distillation/
#理解工业 recipe
- Qwen3 Technical Report: https://arxiv.org/abs/2505.09388
- verl OPD docs: https://verl.readthedocs.io/en/latest/algo/opd.html
#理解失败机制
- Revisiting OPD: https://arxiv.org/abs/2603.25562
- Entropy-Aware OPD: https://arxiv.org/abs/2603.07079
- The Many Faces of OPD: https://arxiv.org/abs/2605.11182
#理解前沿扩展
- SCOPE: https://arxiv.org/abs/2604.10688
- Uni-OPD: https://arxiv.org/abs/2605.03677
- SOD: https://arxiv.org/abs/2605.07725
- Long-context OPD / dGRPO: https://arxiv.org/abs/2605.12227
#20. 最后总结
OPD 不是一个孤立技巧,而是 LLM 后训练从“静态数据拟合”走向“动态策略学习”的一个重要信号。
它背后的主线是:
模型不是一次性生成答案,
而是在自己造成的状态分布中连续决策。
所以训练也必须进入这个状态分布。这就是 OPD 的本质。
但当前 OPD 仍然有很大未解问题:
- 学生探索不足;
- teacher 在学生状态上不可靠;
- token-level KL 与任务成功不一致;
- Agent 长轨迹 credit assignment 仍难;
- 黑盒 judge/rubric 容易偏;
- 成本高;
- 安全、隐私、合规还早期;
- latent / decision-level distillation 尚未充分展开。
我的判断是:OPD 最值得继续追的不是“又一个 KL loss”,而是把它和 Agent 的长轨迹决策、world model、latent state、decision-critical compression 结合起来。这可能会比单纯在 math benchmark 上刷 OPD recipe 更有基础研究价值。