#大模型 OPD:经典工作、发展逻辑与最新问题

本文基于 5 轮 Codex 递进调研,并结合 arXiv、Thinking Machines OPD blog、AwesomeOPD 等资料交叉验证。这里的 OPD 默认指大模型语境里的 On-Policy Distillation

#0. 一句话核心结论

OPD 本质上是在“大模型后训练”里,把 SFT/KD 的离线模仿,改造成类似 DAgger 的“学生自己走到哪里,老师就在哪里教它”的在线蒸馏范式。

它试图同时解决两个矛盾:

  1. SFT / offline KD 的问题:学生只在教师/人工轨迹上学习,但推理时会走到自己生成的状态,一旦走偏就没人教,错误会级联。
  2. RL / RLVR 的问题:RL 虽然 on-policy,但奖励通常太稀疏,只在最终答案对错处给信号,长链推理、工具调用、Agent 轨迹里 credit assignment 很难。

所以 OPD 想要的是:

on-policy 的状态分布
+
distillation 的稠密监督
=
学生在自己真实会遇到的前缀/状态上,得到教师的 token/step/sequence 级指导

这就是 OPD 这条线的核心价值。


#1. OPD 到底是什么?

#1.1 严格定义

给定 prompt x,学生模型 π_S 先生成自己的回答/轨迹:

y ~ π_S(. | x)

然后在学生实际生成出来的前缀状态:

s_t = (x, y_<t)

上,让教师 π_T 给监督信号,训练学生靠近教师。

白盒 token-level OPD 常见目标可写成:

L_OPD = E_{x~D, y~π_S(.|x)} [ Σ_t D( π_S(.|s_t), π_T(.|s_t) ) ]

其中 D 可以是:

  • reverse KL
  • forward KL
  • Jensen-Shannon divergence
  • top-k / truncated KL
  • sampled reverse KL
  • token-level log-prob loss
  • step-level distillation loss
  • sequence-level verbal / rubric / discriminator reward

最严格的 OPD 一般要求两个条件:

C1: student samples its own trajectories.
C2: teacher provides supervision on those student trajectories.

#1.2 人话解释

普通 SFT 像是:

老师写一篇标准答案,学生照着抄。

OPD 像是:

学生自己先做题。他做到哪一步,老师就在那一步看他的当前状态,然后告诉他:“你现在这个前缀下,下一步更应该怎么走。”

这和 Agent / 长链推理特别相关,因为长链任务里最难的不是“看标准答案”,而是:

模型一旦前面走错一点,后面状态分布就和训练数据完全不一样了。这时候传统 SFT/KD 不知道怎么救它。

OPD 正是想在“学生自己会走到的状态”上训练。


#2. OPD 和 SFT、offline KD、DPO、RL 的关系

方法数据来自哪里反馈粒度是否 on-policy核心问题
SFT人工/教师标准答案token CE学生只学标准轨迹,自己走偏后没人教
Offline KD / SeqKD教师预生成数据或固定 logitstoken/sequence训练分布和推理分布错位
DPO固定偏好对sequence preference通常否不是学生当前 rollout,且反馈不稠密
PPO / GRPO / RLVR学生 rolloutoutcome reward奖励稀疏,credit assignment 难
OPD学生 rollouttoken/step/sequence dense signal成本高,教师信号可靠性/稳定性难
OPD + RL hybrid学生 rolloutdense teacher + sparse reward如何平衡 imitation 和 exploration

#2.1 OPD vs SFT

SFT 学的是:

p(y_teacher | x)

OPD 学的是:

在 y_student 的前缀状态下,教师会怎么继续

区别非常关键。

SFT 只告诉学生“正确答案长什么样”;OPD 还告诉学生:

当你已经走到这个尴尬/错误/偏离的状态时,下一步怎么修。

这就是它和 DAgger / imitation learning 的关系。

#2.2 OPD vs offline KD

Offline KD 一般是在固定数据集上蒸馏:

x, y_teacher

或者固定 teacher logits。

问题是学生训练时看到的状态来自教师,推理时状态来自自己。长链任务中,这个 mismatch 会快速放大。

OPD 把蒸馏分布换成:

y ~ π_student

也就是学生自己的分布。

#2.3 OPD vs RL

RL 也是学生自己 rollout,所以也是 on-policy。但 RL 通常只有最终 reward:

答案对了 +1
答案错了 0

这对长链推理很痛苦,因为模型不知道:

  • 哪一步开始错?
  • 哪个 token 是关键?
  • 工具调用错在哪里?
  • 中间 reasoning 是否可修?

OPD 给的是更稠密的信号,例如每个 token 都有 teacher logprob / KL / verbal score。

所以 OPD 可以看作:

RL 的 on-policy 分布
+
KD 的 dense supervision

#2.4 OPD vs DPO

DPO 是 preference optimization,通常基于固定偏好对:

chosen vs rejected

它不天然要求学生当前 rollout,也不是 token-level teacher feedback。

如果把偏好模型、judge、rubric 或 teacher 用在学生当前 rollout 上,那就会进入 OPD-RL hybrid 或 black-box OPD 的范畴。


#3. 发展脉络:OPD 为什么会出现?

我觉得 OPD 的发展可以理解为 6 个阶段。

1. SFT/KD 只学标准轨迹
   ↓
2. 长序列推理时学生会进入自己的错误状态
   ↓
3. DAgger 启发:在学生访问状态上问专家
   ↓
4. GKD/MiniLLM 把这个思想变成 LLM OPD
   ↓
5. Qwen3/Thinking Machines 把 OPD 工程化为后训练 recipe
   ↓
6. 2026 年研究开始处理 OPD 的真实困难:
   - teacher 不可靠
   - KL 不稳定
   - tokenizer 不匹配
   - 成本太高
   - 黑盒 teacher
   - 长链 Agent credit assignment
   - 跨模态能力迁移
   - 隐私与安全

更抽象地说,OPD 的范式转变是:

从“学老师给出的答案”
到“学老师在我当前状态下会怎么想”

这是一个很大的变化。因为对 LLM Agent 来说,真正重要的不是静态答案,而是:

状态 -> 决策 -> 新状态 -> 决策 -> ...

OPD 正好把训练信号放在这个动态闭环里。


#4. 阶段一:问题根源——exposure bias 与 imitation learning

#4.1 DAgger

代表工作:

  • Ross et al., 2011, A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

https://arxiv.org/abs/1011.0686

它之前的问题是什么?

传统 imitation learning 只在专家轨迹上训练。但学习者部署时会犯错,一旦犯错,就进入专家数据里很少出现的状态。这叫 distribution shift / covariate shift。

核心直觉是什么?

不要只在专家状态上教学生。要让学生自己跑,然后在学生访问到的状态上问专家:

student visits state -> expert labels action -> aggregate data -> retrain

这就是 DAgger。

和 OPD 的关系。

OPD 基本就是把 DAgger 的思想搬进 LLM 自回归生成:

机器人状态 s
≈
LLM 当前前缀 (x, y_<t)

专家 action
≈
教师下一 token / 下一步 reasoning / rubric feedback

#4.2 Scheduled Sampling 与 exposure bias

代表工作:

  • Bengio et al., 2015, Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

https://arxiv.org/abs/1506.03099

语言模型训练时常用 teacher forcing:

训练时:给模型真实前缀
推理时:给模型自己生成的前缀

这会导致训练-推理不一致。OPD 不是简单随机混合 ground-truth token 和 model token,而是更进一步:

模型自己生成完整轨迹,然后教师在这些轨迹上提供监督。


#5. 阶段二:传统 KD 到 LLM OPD 的转折

#5.1 Knowledge Distillation 基础

代表工作:

  • Hinton et al., 2015, Distilling the Knowledge in a Neural Network

https://arxiv.org/abs/1503.02531

这篇工作提出用 teacher soft distribution 训练 student,而不是只用 hard label。它给 OPD 提供了“教师分布监督”的基础。

#5.2 Sequence-Level KD

代表工作:

  • Kim & Rush, 2016, Sequence-Level Knowledge Distillation

https://aclanthology.org/D16-1139/

它把蒸馏从分类扩展到序列生成。但它仍然是离线的:教师先生成序列,学生再学。

遗留问题是:学生还是没在自己生成的错误前缀上接受训练。所以长序列下 exposure bias 仍然存在。


#6. 阶段三:LLM OPD 的两个种子工作,2023/2024

#6.1 MiniLLM:reverse KL + on-policy LLM distillation

代表工作:

  • Gu et al., 2023/ICLR 2024, MiniLLM: Knowledge Distillation of Large Language Models

https://arxiv.org/abs/2306.08543

注:AwesomeOPD 等索引将其列为 OPD 早期代表。arXiv 摘要明确批评 previous KD primarily applied on teacher-generated data,强调解决 exposure bias。

它之前的问题是什么?

传统 KD 往往在 teacher-generated responses 上训练。学生推理时生成自己的前缀,一旦偏离 teacher 轨迹,teacher-forced KD 的监督就不适用了。

核心方法。

MiniLLM 使用 reverse KL / policy-gradient 风格的优化,让学生在更接近自身生成分布的状态上学习。

为什么 reverse KL 重要?

Forward KL:

KL(teacher || student)

倾向 mode-covering:学生要覆盖教师的多种可能输出。

Reverse KL:

KL(student || teacher)

倾向 mode-seeking:学生更专注于教师认为高概率的区域。

对小模型蒸馏来说,reverse KL 更像是在说:

你容量有限,不要试图覆盖老师所有可能性,先学老师最确信、最有用的模式。

留下的新问题。

reverse KL 可能:

  • 降低多样性;
  • 在 teacher 高熵 token 上不稳定;
  • 放大 sampled-token estimator 的方差;
  • 对 teacher calibration 敏感。

这直接引出后面的 Entropy-Aware OPD、SCOPE、vOPD 等工作。

#6.2 GKD:正式把 self-generated mistakes 变成 LLM OPD 经典问题

代表工作:

  • Agarwal et al., 2023/ICLR 2024, On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

https://arxiv.org/abs/2306.13649

之前的问题。

KD 通常训练学生模仿教师生成结果,但学生真实推理时会犯自己的错误。如果这些错误状态从未出现在训练中,模型就不会恢复。

核心直觉。

让学生自己生成,然后教师在学生自己生成的输出上给反馈。这就是标题里的:

Learning from Self-Generated Mistakes

具体贡献。

GKD / Generalized Knowledge Distillation 提供了一个统一框架:

  • 可以混合 teacher-generated data 和 student-generated data;
  • 可以使用不同 divergence;
  • 明确强调 on-policy distillation 的价值。

推动下一阶段。

GKD 让 OPD 从一个直觉变成 LLM 后训练的正式范式:

offline KD -> on-policy KD / OPD

#7. 阶段四:工业化配方,2025

#7.1 Qwen3:OPD 进入大模型后训练 recipe

代表工作:

  • Qwen Team, 2025, Qwen3 Technical Report

https://arxiv.org/abs/2505.09388

Qwen3 把 OPD 变成工业级 strong-to-weak distillation recipe 的一部分。典型流程可以理解为:

off-policy distillation / SFT cold start
        ↓
student 已经有基本能力
        ↓
on-policy KL/logit alignment
        ↓
学生在自己 rollout 状态上继续向强 teacher 对齐

如果一开始学生太弱,直接 on-policy 会陷入低质量轨迹。所以 Qwen3 式配方通常先用 off-policy 让学生进入 reasonable support,再用 OPD 精修。

这给后续很多工作一个共识:

OPD 不一定替代 SFT/offline KD,而是常常接在它们之后。SFT 负责“把学生带上路”,OPD 负责“在学生自己的路上纠偏”。

#7.2 Thinking Machines Lab:把 OPD 工程化解释成 RL trainer 里的 dense distillation

代表来源:

  • Kevin Lu et al., 2025, On-Policy Distillation

https://thinkingmachines.ai/blog/on-policy-distillation/

这篇 blog 对社区影响很大,因为它把 OPD 讲得非常工程化:

在 RL 训练里,我们本来就有 student rollout。原来 KL 是约束 student 不要偏离 reference model。那如果 reference 换成更强 teacher,不就得到 OPD 了吗?

也就是:

RL pipeline:
student rollout + sparse reward + KL to reference

OPD-style:
student rollout + dense KL/logprob from stronger teacher

这让 OPD 从“蒸馏论文里的方法”变成“后训练系统里的一个模块”。


#8. 阶段五:2026 爆发——OPD 从方法变成研究方向

2026 年 OPD 的论文爆发,本质上说明社区已经不再问:

OPD 有没有用?

而是在问:

OPD 为什么有用?什么时候失败?怎么更便宜?怎么黑盒化?怎么用于 Agent / 多模态 / 长上下文?

下面按方法家族梳理。


#9. 白盒 token/logit OPD 路线

#9.1 Rethinking OPD:机制、现象与 recipe

代表工作:

  • Li et al., 2026, Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

https://arxiv.org/abs/2604.13016

这篇工作想回答:

  • 为什么 OPD 有时有效?
  • 为什么有时不如 SFT?
  • 什么时候 teacher 能教会 student?
  • 学生和教师的 thinking pattern 不兼容怎么办?

其核心意义在于把 OPD 从经验 recipe 推向机制研究。一个重要共识是:OPD 的成功通常需要学生和教师 thinking pattern 有一定兼容性,且教师必须提供学生没有的新能力;实践上常需要 off-policy cold start 和 teacher-aligned prompt selection。

#9.2 Revisiting OPD:失败模式与简单修复

代表工作:

  • Fu et al., 2026, Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

https://arxiv.org/abs/2603.25562

标准 sampled-token OPD 可能非常脆弱。该工作诊断了几个失败模式:

  1. imbalanced one-token signal:单 token 信号不均衡,长链上信号太局部。
  2. unreliable prefix guidance:学生前缀偏离后,教师在这个陌生前缀上的指导可能不可靠。
  3. tokenizer / special-token mismatch:不同模型族、特殊 token、模板格式会导致 KL 信号错位。

修复方向包括:

  • teacher top-K local support matching;
  • top-p rollout sampling;
  • special-token masking;
  • 更谨慎地处理教师概率分布。

它指出:

OPD 不是“学生 rollout + teacher KL”这么简单。关键是教师在学生状态上是否真的可靠。

#9.3 Entropy-Aware OPD:处理 teacher uncertainty

代表工作:

  • Jin et al., 2026, Entropy-Aware On-Policy Distillation of Language Models

https://arxiv.org/abs/2603.07079

Reverse KL 在 teacher 低熵、明确知道答案时很好。但当 teacher 分布高熵时,强行 mode-seeking 可能会过度压缩多样性。

核心直觉是:

如果 teacher 很确定:用 reverse KL,鼓励学生学主要模式
如果 teacher 不确定:加入 forward KL / entropy-aware adjustment,别过度坍缩

这使“教师不是永远可靠/确定”成为 OPD 中的显式研究对象。

#9.4 vOPD / KL for a KL:降低 OPD 方差

代表工作:

  • Oh et al., 2026, KL for a KL: On-Policy Distillation with Control Variate Baseline

https://arxiv.org/abs/2605.07865

On-policy sampling 带来高方差,尤其 sampled reverse KL 只看采样 token,梯度估计不稳定。该工作把 OPD 看成 policy-gradient 式目标,并引入 control variate baseline,降低方差。

它说明:

OPD 不只是 KD
OPD 也是一种 on-policy policy optimization

#10. 黑盒 OPD:没有 teacher logits 怎么办?

现实里最强 teacher 往往是闭源 API。拿不到 logits,只能拿文本、评分、偏好、rubric。这推动了 black-box OPD。

#10.1 GAD / Black-Box OPD

代表工作:

  • Ye et al., 2025, Black-Box On-Policy Distillation of Large Language Models

https://arxiv.org/abs/2511.10643

白盒 OPD 需要 teacher logits,但 GPT-5、Claude、Gemini 这类强 teacher 通常只给文本输出。GAD 的思路是训练一个 discriminator 区分:

teacher response vs student response

这个 discriminator 就变成 on-policy reward model。学生生成样本,判别器给信号,学生再优化。

这把 OPD 从概率分布匹配扩展成 teacher behavior matching。但新问题是:discriminator 是否可靠?会不会 reward hacking?判别器和学生共同训练是否稳定?它学到的是“质量”还是“教师风格”?

#10.2 OVD:On-policy Verbal Distillation

代表工作:

  • Xiong et al., 2026, OVD: On-policy Verbal Distillation

https://arxiv.org/abs/2601.21968

白盒 token-level KL 需要 logits,内存成本高,tokenizer 对齐困难,跨模型族不方便。OVD 的直觉是不用 logits,而让 teacher 用自然语言/离散分数评价学生生成,例如 0-9 verbal score。

OVD 把 OPD 从“概率蒸馏”推向“语义蒸馏”。

#10.3 ROPD:Rubric-based OPD

代表工作:

  • Fang et al., 2026, Rubric-based On-policy Distillation

https://arxiv.org/abs/2605.07396

单一 verbal score 可能太粗,不同 prompt 需要不同评价标准。ROPD 从 teacher/student 对比中生成 prompt-specific rubric,然后用 rubric 对学生 rollout 进行 on-policy 反馈。

这对 Agent 很重要,因为 Agent 任务里“好坏”通常不是一个简单答案,而是:

  • 是否完成目标;
  • 是否遵守约束;
  • 是否少调用工具;
  • 是否可恢复;
  • 是否安全。

#11. OPSD:On-Policy Self-Distillation,自蒸馏路线

#11.1 Self-Distilled Reasoner

代表工作:

  • Zhao et al., 2026, Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

https://arxiv.org/abs/2601.18734

OPSD 问的是:能不能不依赖外部强 teacher?

方法是让同一个模型扮演 teacher 和 student,但 teacher 获得 privileged context:

student: 正常上下文
teacher: 有额外信息 / verified trace / answer / 更长上下文

然后在学生 rollout 上做蒸馏。人话讲,不是“老师比学生聪明”,而是:

同一个人,一个版本开卷,一个版本闭卷。开卷版本教闭卷版本。

这对推理压缩、长上下文压缩、Agent memory 很有启发:

test-time 有很多辅助信息
但部署时不想一直带这么多上下文
于是把 privileged context 下的行为蒸回普通模型

风险是 OPSD 可能学不到真正可泛化策略,只是在记 privileged information 的局部模式。后续 The Many Faces of OPD 也讨论了 OPSD 的失败机制。


#12. OPD + RL 统一路线

#12.1 G-OPD / ExOPD

代表工作:

  • Yang et al., 2026, Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

https://arxiv.org/abs/2602.12125

这篇工作问:OPD 是不是只能模仿 teacher?能不能超过 teacher?

其核心是把 OPD 解释为 dense KL-constrained RL 的特例,并引入 reward extrapolation,让学生不只是贴近 teacher,而是能在某些方向上外推。

它模糊了 OPD 和 RL 的边界:

OPD = dense teacher-shaped RL
RL = sparse outcome-driven OPD-like optimization

但“超越教师”也有风险:如果 teacher 是 alignment anchor,那么“超越”可能也意味着“脱锚”。

#12.2 SCOPE:Signal-Calibrated OPD

代表工作:

  • Zheng et al., 2026, SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

https://arxiv.org/abs/2604.10688

RL 的 outcome reward 稀疏,OPD 的 token-level feedback 稠密,但不是所有 token feedback 都一样可靠。SCOPE 把轨迹分成:

正确轨迹
错误轨迹

然后使用不同路径加权:

  • 错误轨迹:更依赖 teacher perplexity / KL;
  • 正确轨迹:可以更信学生自身行为,用 MLE / student-PPL 加权;
  • group-level normalization 稳定训练。

SCOPE 代表 OPD 的一个重要方向:

不只是蒸馏,而是校准蒸馏信号。

#12.3 Long-context OPD / Distilled GRPO

代表工作:

  • Ramos et al., 2026, Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

https://arxiv.org/abs/2605.12227

长上下文推理里,SFT/KD 有 exposure bias,RLVR reward 太稀疏,长链中间状态难 credit assignment。该工作把 GRPO 的 outcome reward 和 OPD 的 dense teacher guidance 结合,形成 Distilled GRPO。

这是 OPD 对长上下文 / 长链 Agent 任务的自然延伸。


#13. 多模态、跨模态与 Agent OPD

#13.1 X-OPD:Speech LLM 跨模态 OPD

代表工作:

  • Cao et al., 2026, X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

https://arxiv.org/abs/2603.24596

端到端 Speech LLM 虽然更自然,但能力往往弱于 text LLM。X-OPD 让 speech student 在自己的 speech/text trajectory 上接受 text teacher 的反馈。

OPD 不再只用于小模型压缩,也用于:

能力从强文本模型迁移到其他模态模型

#13.2 Uni-OPD:统一 OPD recipe

代表工作:

  • Hou et al., 2026, Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

https://arxiv.org/abs/2605.03677

Uni-OPD 认为 OPD 有两个核心瓶颈:

  1. 学生侧:informative states 探索不足——学生 rollout 不一定覆盖最有学习价值的状态。
  2. 教师侧:supervision 不可靠——teacher token-level feedback 不一定和 outcome correctness 一致。

因此提出 dual-perspective recipe:

student-side exploration / data balancing
+
teacher-side outcome-guided margin calibration

它试图从“单个方法”上升到“统一配方”。

#13.3 SOD:Step-wise OPD for Small Language Model Agents

代表工作:

  • Zhong et al., 2026, SOD: Step-wise On-policy Distillation for Small Language Model Agents

https://arxiv.org/abs/2605.07725

Agent / tool-integrated reasoning 不只是生成文本,而是:

think -> call tool -> observe -> think -> call tool ...

错误会跨 step 级联。一个错误 tool call 可能导致后面全错。SOD 按推理步骤度量 student-teacher divergence,并自适应调节蒸馏强度。

这代表 OPD 从 token-level 往 step-level / trajectory-level Agent 训练推进。对 long-horizon agent RL 很关键,因为它提示:

对 Agent 来说,token-level KL 可能粒度太细,outcome reward 又太粗。step-wise OPD 可能是中间层级。


#14. 隐私、安全与效率方向

#14.1 DP-OPD

代表工作:

  • Khadem et al., 2026, DP-OPD: Differentially Private On-Policy Distillation for Language Models

https://arxiv.org/abs/2604.04461

私有语料上训练大模型/学生模型,需要 formal privacy。但 DP-SGD 直接训练大模型代价高,效果差。DP-OPD 的直觉是:冻结 teacher,让 teacher 在学生轨迹上提供 dense targets,DP-SGD 只作用在学生训练上。

未解决的问题包括:

  • teacher 是否泄露私有信息?
  • student 是否记忆敏感样本?
  • 闭源 teacher API 的合规边界?
  • DP 与 OPD 效率如何权衡?

#14.2 Fast OPD / Prefix OPD

代表工作:

  • Zhang et al., 2026, Fast and Effective On-policy Distillation from Reasoning Prefixes

https://arxiv.org/abs/2602.15260

OPD 成本高:

student rollout
+
teacher forward/logprob
+
long reasoning sequence KL

该工作发现训练信号可能集中在 reasoning prefix,只蒸馏前缀就能大幅降低成本。

OPD 工程化的核心瓶颈是成本。Prefix OPD 是非常直接的效率优化方向。

#14.3 Lightning OPD

代表工作:

  • Wu et al., 2026, Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

https://arxiv.org/abs/2604.13010

在线 OPD 需要 live teacher server,基础设施成本高。Lightning OPD 用 offline / cached 的方式近似 on-policy distillation,降低 teacher serving 成本。

它名字里叫 Offline On-Policy Distillation,本身就体现了一个新矛盾:

越 offline,越便宜稳定;
越 online,越贴近学生当前分布。

未来很多工程工作会在这个 trade-off 上做文章。


#15. 经典/代表工作时间线

时间工作核心贡献链接
2011DAgger在学习者访问状态上查询专家,OPD 的 imitation learning 根源https://arxiv.org/abs/1011.0686
2015Scheduled Sampling暴露 teacher forcing vs 自回归推理的 exposure biashttps://arxiv.org/abs/1506.03099
2015Knowledge Distillationsoft teacher distribution 蒸馏基础https://arxiv.org/abs/1503.02531
2016Sequence-Level KD序列生成蒸馏基础,但仍偏 offlinehttps://aclanthology.org/D16-1139/
2023/2024MiniLLMreverse KL / LLM on-policy distillation 早期代表https://arxiv.org/abs/2306.08543
2023/2024GKD / On-Policy Distillation of LMs学生 self-generated outputs 上接受教师反馈,LLM OPD 经典种子https://arxiv.org/abs/2306.13649
2025Qwen3 Technical Reportstrong-to-weak:off-policy cold start + on-policy KL/logit 对齐https://arxiv.org/abs/2505.09388
2025Thinking Machines OPD blog工程化解释 OPD,强调 dense supervision + on-policyhttps://thinkingmachines.ai/blog/on-policy-distillation/
2025Black-Box OPD / GAD用 discriminator 做黑盒 on-policy distillationhttps://arxiv.org/abs/2511.10643
2026-01OPSD / Self-Distilled Reasoner同模型 privileged context 自蒸馏https://arxiv.org/abs/2601.18734
2026-01OVD用 verbal score 替代 teacher logitshttps://arxiv.org/abs/2601.21968
2026-02G-OPD / ExOPD把 OPD 统一到 dense KL-constrained RL,尝试超越教师https://arxiv.org/abs/2602.12125
2026-02Fast OPDreasoning prefix 蒸馏,降低成本https://arxiv.org/abs/2602.15260
2026-03Entropy-Aware OPD处理 teacher high-entropy 下 reverse KL 问题https://arxiv.org/abs/2603.07079
2026-03X-OPD跨模态 OPD,text teacher 到 speech LLMhttps://arxiv.org/abs/2603.24596
2026-03Revisiting OPD系统诊断 sampled-token OPD 失败模式https://arxiv.org/abs/2603.25562
2026-04OPD Survey系统综述 OPD for LLMshttps://arxiv.org/abs/2604.00626
2026-04DP-OPDdifferential privacy + OPDhttps://arxiv.org/abs/2604.04461
2026-04SCOPEsignal calibration + dual-path adaptive weightinghttps://arxiv.org/abs/2604.10688
2026-04Rethinking OPD机制、现象、recipe 分析https://arxiv.org/abs/2604.13016
2026-04Lightning OPDoffline/cached OPD 降低成本https://arxiv.org/abs/2604.13010
2026-05Uni-OPD学生探索 + 教师校准的统一 recipehttps://arxiv.org/abs/2605.03677
2026-05ROPDrubric-based black-box OPDhttps://arxiv.org/abs/2605.07396
2026-05SODstep-wise OPD for small LM agentshttps://arxiv.org/abs/2605.07725
2026-05vOPD / KL for a KLcontrol variate baseline 降低 OPD 方差https://arxiv.org/abs/2605.07865
2026-05The Many Faces of OPDOPD/OPSD 失败机制、pitfalls、fixeshttps://arxiv.org/abs/2605.11182
2026-05Long-context OPD / dGRPOOPD + GRPO 用于长上下文推理https://arxiv.org/abs/2605.12227

#16. 方法分类总表

类别代表工作核心信号解决的问题主要风险
白盒 OPDGKD, MiniLLM, Qwen3teacher logits / KL稠密 token 监督成本高、tokenizer mismatch、teacher uncertainty
黑盒 OPDGAD, OVD, ROPDdiscriminator / verbal score / rubric不依赖 logitsjudge bias、reward hacking
OPSDSelf-Distilled Reasoner, CRISP 等privileged context self-teacher降低外部 teacher 依赖学到 shortcut,不泛化
OPD + RLG-OPD, SCOPE, dGRPOdense KL + sparse reward结合探索与稠密监督imitation 和 exploration 平衡难
高效 OPDFast OPD, Lightning OPDprefix / cached teacher signal降低 teacher serving 成本偏离真正 online 分布
跨模态 OPDX-OPD, Uni-OPDtext teacher -> speech/VLM能力迁移对齐粒度与模态差异
Agent OPDSODstep-wise teacher signal工具调用/长轨迹 credit assignmentfeedback 昂贵、step 边界难定义
隐私 OPDDP-OPDDP student + frozen teacher私有数据压缩teacher leakage、utility loss

#17. 当前最新存在的问题

#17.1 教师在学生状态上不一定可靠

OPD 的一个隐含假设是:

teacher 在 student-generated prefix 上仍然知道怎么教。

但这不总成立。学生前缀可能很怪,教师在这种 off-manifold prefix 上的 logits 可能:

  • 不稳定;
  • miscalibrated;
  • 和最终 outcome 不一致;
  • 只是“补救当前文本”,而不是教真正策略。

这是 Revisiting OPD、Uni-OPD、SCOPE、The Many Faces of OPD 都在处理的问题。

#17.2 token-level KL 不一定等价于任务成功

尤其在数学、代码、Agent 中:

teacher token probability 高
≠
最终任务一定成功

可能存在:

  • 多条正确 reasoning path;
  • 低概率但正确的创新路径;
  • 教师风格偏好;
  • token-level imitation 抑制探索。

这也是 OPD + RL hybrid 出现的原因。

#17.3 OPD 会不会限制学生超越教师?

经典 distillation 容易被认为只能模仿教师。G-OPD/ExOPD 试图突破这个限制。

但这带来新问题:

超过教师
vs
偏离安全/对齐边界

如果 teacher 是 alignment anchor,那么“超越”可能也意味着“脱锚”。

#17.4 学生探索不足

OPD 只在学生自己访问的状态上训练。如果学生太弱,它访问不到高价值状态,OPD 就会在低质量区域循环。

所以实践中常需要:

  • off-policy cold start;
  • SFT warmup;
  • curriculum;
  • teacher-guided prompt selection;
  • RL exploration;
  • best-of-N / rejection sampling;
  • multi-rollout comparison。

这对 long-horizon Agent 尤其重要。

#17.5 成本问题非常现实

OPD 需要:

student rollout
+
teacher forward / teacher logits
+
可能还要 verifier / judge
+
多轮在线更新

成本很容易爆炸。因此 Fast OPD、Lightning OPD、truncated KL、top-k KL、prefix OPD、cached OPD 都是必然方向。

关键是未来需要公平比较:

  • 是否计入 teacher serving?
  • 是否计入 rollout generation?
  • 是否计入失败样本过滤?
  • 是否计入 verifier?
  • 是否计入通信与并行效率?

#17.6 黑盒 OPD 的 judge/rubric 偏差

GAD、OVD、ROPD 解决了 logits 不可得的问题,但引入新问题:

  • judge 偏差;
  • discriminator overfitting;
  • rubric 不完整;
  • reward hacking;
  • teacher 风格模仿大于能力迁移;
  • black-box API 的蒸馏合规问题。

#17.7 Agent 场景下 credit assignment 仍远未解决

Agent 轨迹不是普通文本序列,而是:

observation -> thought -> action/tool -> environment -> observation ...

token-level OPD 太细,outcome reward 太粗。SOD 的 step-wise OPD 是一个好开端,但还不够。

开放问题包括:

  • step 边界怎么定义?
  • teacher 应该评价 thought、action 还是 observation usage?
  • 工具调用失败时如何定位责任?
  • 多轮环境中 teacher feedback 成本如何控制?
  • 是否需要 world-model / model-based OPD?

#17.8 OPSD 是否真的学到可泛化策略?

OPSD 很诱人,因为不需要外部 teacher。但它可能只是把 privileged context 的局部答案蒸进去,而不是学到通用策略。

例如:

有答案时能解释
不代表无答案时能推理

这对 latent reasoning / context compression 很关键:

把 privileged context 下的行为蒸回模型,到底是在学“压缩后的充分状态”,还是在学“数据集 shortcut”?


#18. 对 LLM Agent / model-based RL / latent reasoning 的启发

#18.1 Agent OPD 的层级 credit assignment

当前 OPD 多数还是 token-level。但 Agent 需要:

token-level
step-level
subgoal-level
trajectory-level

多层反馈。可以研究:

如何把 teacher feedback 分解到 Agent 的 action、observation usage、memory update、planning step 上?

这可能比简单 GRPO 更适合长轨迹 Agent。

#18.2 Model-based OPD:用世界模型生成“教师可评价状态”

OPD 最大问题之一是学生探索不足。如果有 world model / environment model,可以 imagination rollout 出更多状态,再让 teacher 或 verifier 给反馈。

这会变成:

student policy
→ imagined trajectories
→ teacher/verifier feedback
→ dense distillation / policy update

这和 Dreamer for LLM Agent 很契合。

#18.3 Latent OPD:不要蒸 token,蒸“决策充分状态”

Token-level KL 可能太表层。真正重要的是:

当前任务状态表示
下一步意图
计划结构
工具选择依据

可以想象 Latent OPD:

teacher latent state / plan representation
→ student latent state

而不是只匹配 token。

#18.4 Decision-sufficient OPD

不是所有 token 都值得蒸。真正重要的是决策点:

  • 选择方法;
  • 选择工具;
  • 选择检索 query;
  • 判断是否停止;
  • 判断是否反思;
  • 判断是否调用 verifier。

研究问题:

如何自动识别 OPD 中的 decision-critical tokens / steps?

Fast OPD 的 prefix idea 是一个初步方向,但更 general 的版本应该是 decision-sufficient distillation。

#18.5 Teacher reliability as uncertainty modeling

目前很多 OPD 失败来自 teacher 在 student prefix 上不可靠。可以研究:

teacher confidence
teacher-student support overlap
prefix abnormality
outcome consistency

并用这些量控制是否蒸馏、蒸多少、蒸哪一层。

这本质上是 OPD 里的 uncertainty-aware / calibration-aware learning。


#19. 建议阅读路径

#入门先读

  1. GKD: https://arxiv.org/abs/2306.13649
  2. MiniLLM: https://arxiv.org/abs/2306.08543
  3. Thinking Machines OPD blog: https://thinkingmachines.ai/blog/on-policy-distillation/

#理解工业 recipe

  1. Qwen3 Technical Report: https://arxiv.org/abs/2505.09388
  2. verl OPD docs: https://verl.readthedocs.io/en/latest/algo/opd.html

#理解失败机制

  1. Revisiting OPD: https://arxiv.org/abs/2603.25562
  2. Entropy-Aware OPD: https://arxiv.org/abs/2603.07079
  3. The Many Faces of OPD: https://arxiv.org/abs/2605.11182

#理解前沿扩展

  1. SCOPE: https://arxiv.org/abs/2604.10688
  2. Uni-OPD: https://arxiv.org/abs/2605.03677
  3. SOD: https://arxiv.org/abs/2605.07725
  4. Long-context OPD / dGRPO: https://arxiv.org/abs/2605.12227

#20. 最后总结

OPD 不是一个孤立技巧,而是 LLM 后训练从“静态数据拟合”走向“动态策略学习”的一个重要信号。

它背后的主线是:

模型不是一次性生成答案,
而是在自己造成的状态分布中连续决策。

所以训练也必须进入这个状态分布。这就是 OPD 的本质。

但当前 OPD 仍然有很大未解问题:

  • 学生探索不足;
  • teacher 在学生状态上不可靠;
  • token-level KL 与任务成功不一致;
  • Agent 长轨迹 credit assignment 仍难;
  • 黑盒 judge/rubric 容易偏;
  • 成本高;
  • 安全、隐私、合规还早期;
  • latent / decision-level distillation 尚未充分展开。

我的判断是:OPD 最值得继续追的不是“又一个 KL loss”,而是把它和 Agent 的长轨迹决策、world model、latent state、decision-critical compression 结合起来。这可能会比单纯在 math benchmark 上刷 OPD recipe 更有基础研究价值。