主题归档 2026-05-16 ★★★★★ LLM OPD On-Policy Distillation 后训练 LLM Agent

#大模型 OPD：经典工作、发展逻辑与最新问题

本文基于 5 轮 Codex 递进调研，并结合 arXiv、Thinking Machines OPD blog、AwesomeOPD 等资料交叉验证。这里的 OPD 默认指大模型语境里的 On-Policy Distillation。

#0. 一句话核心结论

OPD 本质上是在“大模型后训练”里，把 SFT/KD 的离线模仿，改造成类似 DAgger 的“学生自己走到哪里，老师就在哪里教它”的在线蒸馏范式。

它试图同时解决两个矛盾：

SFT / offline KD 的问题：学生只在教师/人工轨迹上学习，但推理时会走到自己生成的状态，一旦走偏就没人教，错误会级联。
RL / RLVR 的问题：RL 虽然 on-policy，但奖励通常太稀疏，只在最终答案对错处给信号，长链推理、工具调用、Agent 轨迹里 credit assignment 很难。

所以 OPD 想要的是：

on-policy 的状态分布
+
distillation 的稠密监督
=
学生在自己真实会遇到的前缀/状态上，得到教师的 token/step/sequence 级指导

这就是 OPD 这条线的核心价值。

#1. OPD 到底是什么？

#1.1 严格定义

给定 prompt x，学生模型 π_S 先生成自己的回答/轨迹：

y ~ π_S(. | x)

然后在学生实际生成出来的前缀状态：

s_t = (x, y_<t)

上，让教师 π_T 给监督信号，训练学生靠近教师。

白盒 token-level OPD 常见目标可写成：

L_OPD = E_{x~D, y~π_S(.|x)} [ Σ_t D( π_S(.|s_t), π_T(.|s_t) ) ]

其中 D 可以是：

reverse KL
forward KL
Jensen-Shannon divergence
top-k / truncated KL
sampled reverse KL
token-level log-prob loss
step-level distillation loss
sequence-level verbal / rubric / discriminator reward

最严格的 OPD 一般要求两个条件：

C1: student samples its own trajectories.
C2: teacher provides supervision on those student trajectories.

#1.2 人话解释

普通 SFT 像是：

老师写一篇标准答案，学生照着抄。

OPD 像是：

学生自己先做题。他做到哪一步，老师就在那一步看他的当前状态，然后告诉他：“你现在这个前缀下，下一步更应该怎么走。”

这和 Agent / 长链推理特别相关，因为长链任务里最难的不是“看标准答案”，而是：

模型一旦前面走错一点，后面状态分布就和训练数据完全不一样了。这时候传统 SFT/KD 不知道怎么救它。

OPD 正是想在“学生自己会走到的状态”上训练。

#2. OPD 和 SFT、offline KD、DPO、RL 的关系

方法	数据来自哪里	反馈粒度	是否 on-policy	核心问题
SFT	人工/教师标准答案	token CE	否	学生只学标准轨迹，自己走偏后没人教
Offline KD / SeqKD	教师预生成数据或固定 logits	token/sequence	否	训练分布和推理分布错位
DPO	固定偏好对	sequence preference	通常否	不是学生当前 rollout，且反馈不稠密
PPO / GRPO / RLVR	学生 rollout	outcome reward	是	奖励稀疏，credit assignment 难
OPD	学生 rollout	token/step/sequence dense signal	是	成本高，教师信号可靠性/稳定性难
OPD + RL hybrid	学生 rollout	dense teacher + sparse reward	是	如何平衡 imitation 和 exploration

#2.1 OPD vs SFT

SFT 学的是：

p(y_teacher | x)

OPD 学的是：

在 y_student 的前缀状态下，教师会怎么继续

区别非常关键。

SFT 只告诉学生“正确答案长什么样”；OPD 还告诉学生：

当你已经走到这个尴尬/错误/偏离的状态时，下一步怎么修。

这就是它和 DAgger / imitation learning 的关系。

#2.2 OPD vs offline KD

Offline KD 一般是在固定数据集上蒸馏：

x, y_teacher

或者固定 teacher logits。

问题是学生训练时看到的状态来自教师，推理时状态来自自己。长链任务中，这个 mismatch 会快速放大。

OPD 把蒸馏分布换成：

y ~ π_student

也就是学生自己的分布。

#2.3 OPD vs RL

RL 也是学生自己 rollout，所以也是 on-policy。但 RL 通常只有最终 reward：

答案对了 +1
答案错了 0

这对长链推理很痛苦，因为模型不知道：

哪一步开始错？
哪个 token 是关键？
工具调用错在哪里？
中间 reasoning 是否可修？

OPD 给的是更稠密的信号，例如每个 token 都有 teacher logprob / KL / verbal score。

所以 OPD 可以看作：

RL 的 on-policy 分布
+
KD 的 dense supervision

#2.4 OPD vs DPO

DPO 是 preference optimization，通常基于固定偏好对：

chosen vs rejected

它不天然要求学生当前 rollout，也不是 token-level teacher feedback。

如果把偏好模型、judge、rubric 或 teacher 用在学生当前 rollout 上，那就会进入 OPD-RL hybrid 或 black-box OPD 的范畴。

#3. 发展脉络：OPD 为什么会出现？

我觉得 OPD 的发展可以理解为 6 个阶段。

1. SFT/KD 只学标准轨迹
   ↓
2. 长序列推理时学生会进入自己的错误状态
   ↓
3. DAgger 启发：在学生访问状态上问专家
   ↓
4. GKD/MiniLLM 把这个思想变成 LLM OPD
   ↓
5. Qwen3/Thinking Machines 把 OPD 工程化为后训练 recipe
   ↓
6. 2026 年研究开始处理 OPD 的真实困难：
   - teacher 不可靠
   - KL 不稳定
   - tokenizer 不匹配
   - 成本太高
   - 黑盒 teacher
   - 长链 Agent credit assignment
   - 跨模态能力迁移
   - 隐私与安全

更抽象地说，OPD 的范式转变是：

从“学老师给出的答案”
到“学老师在我当前状态下会怎么想”

这是一个很大的变化。因为对 LLM Agent 来说，真正重要的不是静态答案，而是：

状态 -> 决策 -> 新状态 -> 决策 -> ...

OPD 正好把训练信号放在这个动态闭环里。

#4. 阶段一：问题根源——exposure bias 与 imitation learning

#4.1 DAgger

代表工作：

Ross et al., 2011, A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

https://arxiv.org/abs/1011.0686

它之前的问题是什么？

传统 imitation learning 只在专家轨迹上训练。但学习者部署时会犯错，一旦犯错，就进入专家数据里很少出现的状态。这叫 distribution shift / covariate shift。

核心直觉是什么？

不要只在专家状态上教学生。要让学生自己跑，然后在学生访问到的状态上问专家：

student visits state -> expert labels action -> aggregate data -> retrain

这就是 DAgger。

和 OPD 的关系。

OPD 基本就是把 DAgger 的思想搬进 LLM 自回归生成：

机器人状态 s
≈
LLM 当前前缀 (x, y_<t)

专家 action
≈
教师下一 token / 下一步 reasoning / rubric feedback

#4.2 Scheduled Sampling 与 exposure bias

代表工作：

Bengio et al., 2015, Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

https://arxiv.org/abs/1506.03099

语言模型训练时常用 teacher forcing：

训练时：给模型真实前缀
推理时：给模型自己生成的前缀

这会导致训练-推理不一致。OPD 不是简单随机混合 ground-truth token 和 model token，而是更进一步：

模型自己生成完整轨迹，然后教师在这些轨迹上提供监督。

#5. 阶段二：传统 KD 到 LLM OPD 的转折

#5.1 Knowledge Distillation 基础

代表工作：

Hinton et al., 2015, Distilling the Knowledge in a Neural Network

https://arxiv.org/abs/1503.02531

这篇工作提出用 teacher soft distribution 训练 student，而不是只用 hard label。它给 OPD 提供了“教师分布监督”的基础。

#5.2 Sequence-Level KD

代表工作：

Kim & Rush, 2016, Sequence-Level Knowledge Distillation

https://aclanthology.org/D16-1139/

它把蒸馏从分类扩展到序列生成。但它仍然是离线的：教师先生成序列，学生再学。

遗留问题是：学生还是没在自己生成的错误前缀上接受训练。所以长序列下 exposure bias 仍然存在。

#6. 阶段三：LLM OPD 的两个种子工作，2023/2024

#6.1 MiniLLM：reverse KL + on-policy LLM distillation

代表工作：

Gu et al., 2023/ICLR 2024, MiniLLM: Knowledge Distillation of Large Language Models

https://arxiv.org/abs/2306.08543

注：AwesomeOPD 等索引将其列为 OPD 早期代表。arXiv 摘要明确批评 previous KD primarily applied on teacher-generated data，强调解决 exposure bias。

它之前的问题是什么？

传统 KD 往往在 teacher-generated responses 上训练。学生推理时生成自己的前缀，一旦偏离 teacher 轨迹，teacher-forced KD 的监督就不适用了。

核心方法。

MiniLLM 使用 reverse KL / policy-gradient 风格的优化，让学生在更接近自身生成分布的状态上学习。

为什么 reverse KL 重要？

Forward KL：

KL(teacher || student)

倾向 mode-covering：学生要覆盖教师的多种可能输出。

Reverse KL：

KL(student || teacher)

倾向 mode-seeking：学生更专注于教师认为高概率的区域。

对小模型蒸馏来说，reverse KL 更像是在说：

你容量有限，不要试图覆盖老师所有可能性，先学老师最确信、最有用的模式。

留下的新问题。

reverse KL 可能：

降低多样性；
在 teacher 高熵 token 上不稳定；
放大 sampled-token estimator 的方差；
对 teacher calibration 敏感。

这直接引出后面的 Entropy-Aware OPD、SCOPE、vOPD 等工作。

#6.2 GKD：正式把 self-generated mistakes 变成 LLM OPD 经典问题

代表工作：

Agarwal et al., 2023/ICLR 2024, On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

https://arxiv.org/abs/2306.13649

之前的问题。

KD 通常训练学生模仿教师生成结果，但学生真实推理时会犯自己的错误。如果这些错误状态从未出现在训练中，模型就不会恢复。

核心直觉。

让学生自己生成，然后教师在学生自己生成的输出上给反馈。这就是标题里的：

Learning from Self-Generated Mistakes

具体贡献。

GKD / Generalized Knowledge Distillation 提供了一个统一框架：

可以混合 teacher-generated data 和 student-generated data；
可以使用不同 divergence；
明确强调 on-policy distillation 的价值。

推动下一阶段。

GKD 让 OPD 从一个直觉变成 LLM 后训练的正式范式：

offline KD -> on-policy KD / OPD

#7. 阶段四：工业化配方，2025

#7.1 Qwen3：OPD 进入大模型后训练 recipe

代表工作：

Qwen Team, 2025, Qwen3 Technical Report

https://arxiv.org/abs/2505.09388

Qwen3 把 OPD 变成工业级 strong-to-weak distillation recipe 的一部分。典型流程可以理解为：

off-policy distillation / SFT cold start
        ↓
student 已经有基本能力
        ↓
on-policy KL/logit alignment
        ↓
学生在自己 rollout 状态上继续向强 teacher 对齐

如果一开始学生太弱，直接 on-policy 会陷入低质量轨迹。所以 Qwen3 式配方通常先用 off-policy 让学生进入 reasonable support，再用 OPD 精修。

这给后续很多工作一个共识：

OPD 不一定替代 SFT/offline KD，而是常常接在它们之后。SFT 负责“把学生带上路”，OPD 负责“在学生自己的路上纠偏”。

#7.2 Thinking Machines Lab：把 OPD 工程化解释成 RL trainer 里的 dense distillation

代表来源：

Kevin Lu et al., 2025, On-Policy Distillation

https://thinkingmachines.ai/blog/on-policy-distillation/

这篇 blog 对社区影响很大，因为它把 OPD 讲得非常工程化：

在 RL 训练里，我们本来就有 student rollout。原来 KL 是约束 student 不要偏离 reference model。那如果 reference 换成更强 teacher，不就得到 OPD 了吗？

也就是：

RL pipeline:
student rollout + sparse reward + KL to reference

OPD-style:
student rollout + dense KL/logprob from stronger teacher

这让 OPD 从“蒸馏论文里的方法”变成“后训练系统里的一个模块”。

#8. 阶段五：2026 爆发——OPD 从方法变成研究方向

2026 年 OPD 的论文爆发，本质上说明社区已经不再问：

OPD 有没有用？

而是在问：

OPD 为什么有用？什么时候失败？怎么更便宜？怎么黑盒化？怎么用于 Agent / 多模态 / 长上下文？

下面按方法家族梳理。

#9. 白盒 token/logit OPD 路线

#9.1 Rethinking OPD：机制、现象与 recipe

代表工作：

Li et al., 2026, Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

https://arxiv.org/abs/2604.13016

这篇工作想回答：

为什么 OPD 有时有效？
为什么有时不如 SFT？
什么时候 teacher 能教会 student？
学生和教师的 thinking pattern 不兼容怎么办？

其核心意义在于把 OPD 从经验 recipe 推向机制研究。一个重要共识是：OPD 的成功通常需要学生和教师 thinking pattern 有一定兼容性，且教师必须提供学生没有的新能力；实践上常需要 off-policy cold start 和 teacher-aligned prompt selection。

#9.2 Revisiting OPD：失败模式与简单修复

代表工作：

Fu et al., 2026, Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

https://arxiv.org/abs/2603.25562

标准 sampled-token OPD 可能非常脆弱。该工作诊断了几个失败模式：

imbalanced one-token signal：单 token 信号不均衡，长链上信号太局部。
unreliable prefix guidance：学生前缀偏离后，教师在这个陌生前缀上的指导可能不可靠。
tokenizer / special-token mismatch：不同模型族、特殊 token、模板格式会导致 KL 信号错位。

修复方向包括：

teacher top-K local support matching；
top-p rollout sampling；
special-token masking；
更谨慎地处理教师概率分布。

它指出：

OPD 不是“学生 rollout + teacher KL”这么简单。关键是教师在学生状态上是否真的可靠。

#9.3 Entropy-Aware OPD：处理 teacher uncertainty

代表工作：

Jin et al., 2026, Entropy-Aware On-Policy Distillation of Language Models

https://arxiv.org/abs/2603.07079

Reverse KL 在 teacher 低熵、明确知道答案时很好。但当 teacher 分布高熵时，强行 mode-seeking 可能会过度压缩多样性。

核心直觉是：

如果 teacher 很确定：用 reverse KL，鼓励学生学主要模式
如果 teacher 不确定：加入 forward KL / entropy-aware adjustment，别过度坍缩

这使“教师不是永远可靠/确定”成为 OPD 中的显式研究对象。

#9.4 vOPD / KL for a KL：降低 OPD 方差

代表工作：

Oh et al., 2026, KL for a KL: On-Policy Distillation with Control Variate Baseline

https://arxiv.org/abs/2605.07865

On-policy sampling 带来高方差，尤其 sampled reverse KL 只看采样 token，梯度估计不稳定。该工作把 OPD 看成 policy-gradient 式目标，并引入 control variate baseline，降低方差。

它说明：

OPD 不只是 KD
OPD 也是一种 on-policy policy optimization

#10. 黑盒 OPD：没有 teacher logits 怎么办？

现实里最强 teacher 往往是闭源 API。拿不到 logits，只能拿文本、评分、偏好、rubric。这推动了 black-box OPD。

#10.1 GAD / Black-Box OPD

代表工作：

Ye et al., 2025, Black-Box On-Policy Distillation of Large Language Models

https://arxiv.org/abs/2511.10643

白盒 OPD 需要 teacher logits，但 GPT-5、Claude、Gemini 这类强 teacher 通常只给文本输出。GAD 的思路是训练一个 discriminator 区分：

teacher response vs student response

这个 discriminator 就变成 on-policy reward model。学生生成样本，判别器给信号，学生再优化。

这把 OPD 从概率分布匹配扩展成 teacher behavior matching。但新问题是：discriminator 是否可靠？会不会 reward hacking？判别器和学生共同训练是否稳定？它学到的是“质量”还是“教师风格”？

#10.2 OVD：On-policy Verbal Distillation

代表工作：

Xiong et al., 2026, OVD: On-policy Verbal Distillation

https://arxiv.org/abs/2601.21968

白盒 token-level KL 需要 logits，内存成本高，tokenizer 对齐困难，跨模型族不方便。OVD 的直觉是不用 logits，而让 teacher 用自然语言/离散分数评价学生生成，例如 0-9 verbal score。

OVD 把 OPD 从“概率蒸馏”推向“语义蒸馏”。

#10.3 ROPD：Rubric-based OPD

代表工作：

Fang et al., 2026, Rubric-based On-policy Distillation

https://arxiv.org/abs/2605.07396

单一 verbal score 可能太粗，不同 prompt 需要不同评价标准。ROPD 从 teacher/student 对比中生成 prompt-specific rubric，然后用 rubric 对学生 rollout 进行 on-policy 反馈。

这对 Agent 很重要，因为 Agent 任务里“好坏”通常不是一个简单答案，而是：

是否完成目标；
是否遵守约束；
是否少调用工具；
是否可恢复；
是否安全。

#11. OPSD：On-Policy Self-Distillation，自蒸馏路线

#11.1 Self-Distilled Reasoner

代表工作：

Zhao et al., 2026, Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

https://arxiv.org/abs/2601.18734

OPSD 问的是：能不能不依赖外部强 teacher？

方法是让同一个模型扮演 teacher 和 student，但 teacher 获得 privileged context：

student: 正常上下文
teacher: 有额外信息 / verified trace / answer / 更长上下文

然后在学生 rollout 上做蒸馏。人话讲，不是“老师比学生聪明”，而是：

同一个人，一个版本开卷，一个版本闭卷。开卷版本教闭卷版本。

这对推理压缩、长上下文压缩、Agent memory 很有启发：

test-time 有很多辅助信息
但部署时不想一直带这么多上下文
于是把 privileged context 下的行为蒸回普通模型

风险是 OPSD 可能学不到真正可泛化策略，只是在记 privileged information 的局部模式。后续 The Many Faces of OPD 也讨论了 OPSD 的失败机制。

#12. OPD + RL 统一路线

#12.1 G-OPD / ExOPD

代表工作：

Yang et al., 2026, Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

https://arxiv.org/abs/2602.12125

这篇工作问：OPD 是不是只能模仿 teacher？能不能超过 teacher？

其核心是把 OPD 解释为 dense KL-constrained RL 的特例，并引入 reward extrapolation，让学生不只是贴近 teacher，而是能在某些方向上外推。

它模糊了 OPD 和 RL 的边界：

OPD = dense teacher-shaped RL
RL = sparse outcome-driven OPD-like optimization

但“超越教师”也有风险：如果 teacher 是 alignment anchor，那么“超越”可能也意味着“脱锚”。

#12.2 SCOPE：Signal-Calibrated OPD

代表工作：

Zheng et al., 2026, SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

https://arxiv.org/abs/2604.10688

RL 的 outcome reward 稀疏，OPD 的 token-level feedback 稠密，但不是所有 token feedback 都一样可靠。SCOPE 把轨迹分成：

正确轨迹
错误轨迹

然后使用不同路径加权：

错误轨迹：更依赖 teacher perplexity / KL；
正确轨迹：可以更信学生自身行为，用 MLE / student-PPL 加权；
group-level normalization 稳定训练。

SCOPE 代表 OPD 的一个重要方向：

不只是蒸馏，而是校准蒸馏信号。

#12.3 Long-context OPD / Distilled GRPO

代表工作：

Ramos et al., 2026, Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

https://arxiv.org/abs/2605.12227

长上下文推理里，SFT/KD 有 exposure bias，RLVR reward 太稀疏，长链中间状态难 credit assignment。该工作把 GRPO 的 outcome reward 和 OPD 的 dense teacher guidance 结合，形成 Distilled GRPO。

这是 OPD 对长上下文 / 长链 Agent 任务的自然延伸。

#13. 多模态、跨模态与 Agent OPD

#13.1 X-OPD：Speech LLM 跨模态 OPD

代表工作：

Cao et al., 2026, X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

https://arxiv.org/abs/2603.24596

端到端 Speech LLM 虽然更自然，但能力往往弱于 text LLM。X-OPD 让 speech student 在自己的 speech/text trajectory 上接受 text teacher 的反馈。

OPD 不再只用于小模型压缩，也用于：

能力从强文本模型迁移到其他模态模型

#13.2 Uni-OPD：统一 OPD recipe

代表工作：

Hou et al., 2026, Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

https://arxiv.org/abs/2605.03677

Uni-OPD 认为 OPD 有两个核心瓶颈：

学生侧：informative states 探索不足——学生 rollout 不一定覆盖最有学习价值的状态。
教师侧：supervision 不可靠——teacher token-level feedback 不一定和 outcome correctness 一致。

因此提出 dual-perspective recipe：

student-side exploration / data balancing
+
teacher-side outcome-guided margin calibration

它试图从“单个方法”上升到“统一配方”。

#13.3 SOD：Step-wise OPD for Small Language Model Agents

代表工作：

Zhong et al., 2026, SOD: Step-wise On-policy Distillation for Small Language Model Agents

https://arxiv.org/abs/2605.07725

Agent / tool-integrated reasoning 不只是生成文本，而是：

think -> call tool -> observe -> think -> call tool ...

错误会跨 step 级联。一个错误 tool call 可能导致后面全错。SOD 按推理步骤度量 student-teacher divergence，并自适应调节蒸馏强度。

这代表 OPD 从 token-level 往 step-level / trajectory-level Agent 训练推进。对 long-horizon agent RL 很关键，因为它提示：

对 Agent 来说，token-level KL 可能粒度太细，outcome reward 又太粗。step-wise OPD 可能是中间层级。

#14. 隐私、安全与效率方向

#14.1 DP-OPD

代表工作：

Khadem et al., 2026, DP-OPD: Differentially Private On-Policy Distillation for Language Models

https://arxiv.org/abs/2604.04461

私有语料上训练大模型/学生模型，需要 formal privacy。但 DP-SGD 直接训练大模型代价高，效果差。DP-OPD 的直觉是：冻结 teacher，让 teacher 在学生轨迹上提供 dense targets，DP-SGD 只作用在学生训练上。

未解决的问题包括：

teacher 是否泄露私有信息？
student 是否记忆敏感样本？
闭源 teacher API 的合规边界？
DP 与 OPD 效率如何权衡？

#14.2 Fast OPD / Prefix OPD

代表工作：

Zhang et al., 2026, Fast and Effective On-policy Distillation from Reasoning Prefixes

https://arxiv.org/abs/2602.15260

OPD 成本高：

student rollout
+
teacher forward/logprob
+
long reasoning sequence KL

该工作发现训练信号可能集中在 reasoning prefix，只蒸馏前缀就能大幅降低成本。

OPD 工程化的核心瓶颈是成本。Prefix OPD 是非常直接的效率优化方向。

#14.3 Lightning OPD

代表工作：

Wu et al., 2026, Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

https://arxiv.org/abs/2604.13010

在线 OPD 需要 live teacher server，基础设施成本高。Lightning OPD 用 offline / cached 的方式近似 on-policy distillation，降低 teacher serving 成本。

它名字里叫 Offline On-Policy Distillation，本身就体现了一个新矛盾：

越 offline，越便宜稳定；
越 online，越贴近学生当前分布。

未来很多工程工作会在这个 trade-off 上做文章。

#15. 经典/代表工作时间线

时间	工作	核心贡献	链接
2011	DAgger	在学习者访问状态上查询专家，OPD 的 imitation learning 根源	https://arxiv.org/abs/1011.0686
2015	Scheduled Sampling	暴露 teacher forcing vs 自回归推理的 exposure bias	https://arxiv.org/abs/1506.03099
2015	Knowledge Distillation	soft teacher distribution 蒸馏基础	https://arxiv.org/abs/1503.02531
2016	Sequence-Level KD	序列生成蒸馏基础，但仍偏 offline	https://aclanthology.org/D16-1139/
2023/2024	MiniLLM	reverse KL / LLM on-policy distillation 早期代表	https://arxiv.org/abs/2306.08543
2023/2024	GKD / On-Policy Distillation of LMs	学生 self-generated outputs 上接受教师反馈，LLM OPD 经典种子	https://arxiv.org/abs/2306.13649
2025	Qwen3 Technical Report	strong-to-weak：off-policy cold start + on-policy KL/logit 对齐	https://arxiv.org/abs/2505.09388
2025	Thinking Machines OPD blog	工程化解释 OPD，强调 dense supervision + on-policy	https://thinkingmachines.ai/blog/on-policy-distillation/
2025	Black-Box OPD / GAD	用 discriminator 做黑盒 on-policy distillation	https://arxiv.org/abs/2511.10643
2026-01	OPSD / Self-Distilled Reasoner	同模型 privileged context 自蒸馏	https://arxiv.org/abs/2601.18734
2026-01	OVD	用 verbal score 替代 teacher logits	https://arxiv.org/abs/2601.21968
2026-02	G-OPD / ExOPD	把 OPD 统一到 dense KL-constrained RL，尝试超越教师	https://arxiv.org/abs/2602.12125
2026-02	Fast OPD	reasoning prefix 蒸馏，降低成本	https://arxiv.org/abs/2602.15260
2026-03	Entropy-Aware OPD	处理 teacher high-entropy 下 reverse KL 问题	https://arxiv.org/abs/2603.07079
2026-03	X-OPD	跨模态 OPD，text teacher 到 speech LLM	https://arxiv.org/abs/2603.24596
2026-03	Revisiting OPD	系统诊断 sampled-token OPD 失败模式	https://arxiv.org/abs/2603.25562
2026-04	OPD Survey	系统综述 OPD for LLMs	https://arxiv.org/abs/2604.00626
2026-04	DP-OPD	differential privacy + OPD	https://arxiv.org/abs/2604.04461
2026-04	SCOPE	signal calibration + dual-path adaptive weighting	https://arxiv.org/abs/2604.10688
2026-04	Rethinking OPD	机制、现象、recipe 分析	https://arxiv.org/abs/2604.13016
2026-04	Lightning OPD	offline/cached OPD 降低成本	https://arxiv.org/abs/2604.13010
2026-05	Uni-OPD	学生探索 + 教师校准的统一 recipe	https://arxiv.org/abs/2605.03677
2026-05	ROPD	rubric-based black-box OPD	https://arxiv.org/abs/2605.07396
2026-05	SOD	step-wise OPD for small LM agents	https://arxiv.org/abs/2605.07725
2026-05	vOPD / KL for a KL	control variate baseline 降低 OPD 方差	https://arxiv.org/abs/2605.07865
2026-05	The Many Faces of OPD	OPD/OPSD 失败机制、pitfalls、fixes	https://arxiv.org/abs/2605.11182
2026-05	Long-context OPD / dGRPO	OPD + GRPO 用于长上下文推理	https://arxiv.org/abs/2605.12227

#16. 方法分类总表

类别	代表工作	核心信号	解决的问题	主要风险
白盒 OPD	GKD, MiniLLM, Qwen3	teacher logits / KL	稠密 token 监督	成本高、tokenizer mismatch、teacher uncertainty
黑盒 OPD	GAD, OVD, ROPD	discriminator / verbal score / rubric	不依赖 logits	judge bias、reward hacking
OPSD	Self-Distilled Reasoner, CRISP 等	privileged context self-teacher	降低外部 teacher 依赖	学到 shortcut，不泛化
OPD + RL	G-OPD, SCOPE, dGRPO	dense KL + sparse reward	结合探索与稠密监督	imitation 和 exploration 平衡难
高效 OPD	Fast OPD, Lightning OPD	prefix / cached teacher signal	降低 teacher serving 成本	偏离真正 online 分布
跨模态 OPD	X-OPD, Uni-OPD	text teacher -> speech/VLM	能力迁移	对齐粒度与模态差异
Agent OPD	SOD	step-wise teacher signal	工具调用/长轨迹 credit assignment	feedback 昂贵、step 边界难定义
隐私 OPD	DP-OPD	DP student + frozen teacher	私有数据压缩	teacher leakage、utility loss

#17. 当前最新存在的问题

#17.1 教师在学生状态上不一定可靠

OPD 的一个隐含假设是：

teacher 在 student-generated prefix 上仍然知道怎么教。

但这不总成立。学生前缀可能很怪，教师在这种 off-manifold prefix 上的 logits 可能：

不稳定；
miscalibrated；
和最终 outcome 不一致；
只是“补救当前文本”，而不是教真正策略。

这是 Revisiting OPD、Uni-OPD、SCOPE、The Many Faces of OPD 都在处理的问题。

#17.2 token-level KL 不一定等价于任务成功

尤其在数学、代码、Agent 中：

teacher token probability 高
≠
最终任务一定成功

可能存在：

多条正确 reasoning path；
低概率但正确的创新路径；
教师风格偏好；
token-level imitation 抑制探索。

这也是 OPD + RL hybrid 出现的原因。

#17.3 OPD 会不会限制学生超越教师？

经典 distillation 容易被认为只能模仿教师。G-OPD/ExOPD 试图突破这个限制。

但这带来新问题：

超过教师
vs
偏离安全/对齐边界

如果 teacher 是 alignment anchor，那么“超越”可能也意味着“脱锚”。

#17.4 学生探索不足

OPD 只在学生自己访问的状态上训练。如果学生太弱，它访问不到高价值状态，OPD 就会在低质量区域循环。

所以实践中常需要：

off-policy cold start；
SFT warmup；
curriculum；
teacher-guided prompt selection；
RL exploration；
best-of-N / rejection sampling；
multi-rollout comparison。

这对 long-horizon Agent 尤其重要。

#17.5 成本问题非常现实

OPD 需要：

student rollout
+
teacher forward / teacher logits
+
可能还要 verifier / judge
+
多轮在线更新

成本很容易爆炸。因此 Fast OPD、Lightning OPD、truncated KL、top-k KL、prefix OPD、cached OPD 都是必然方向。

关键是未来需要公平比较：

是否计入 teacher serving？
是否计入 rollout generation？
是否计入失败样本过滤？
是否计入 verifier？
是否计入通信与并行效率？

#17.6 黑盒 OPD 的 judge/rubric 偏差

GAD、OVD、ROPD 解决了 logits 不可得的问题，但引入新问题：

judge 偏差；
discriminator overfitting；
rubric 不完整；
reward hacking；
teacher 风格模仿大于能力迁移；
black-box API 的蒸馏合规问题。

#17.7 Agent 场景下 credit assignment 仍远未解决

Agent 轨迹不是普通文本序列，而是：

observation -> thought -> action/tool -> environment -> observation ...

token-level OPD 太细，outcome reward 太粗。SOD 的 step-wise OPD 是一个好开端，但还不够。

开放问题包括：

step 边界怎么定义？
teacher 应该评价 thought、action 还是 observation usage？
工具调用失败时如何定位责任？
多轮环境中 teacher feedback 成本如何控制？
是否需要 world-model / model-based OPD？

#17.8 OPSD 是否真的学到可泛化策略？

OPSD 很诱人，因为不需要外部 teacher。但它可能只是把 privileged context 的局部答案蒸进去，而不是学到通用策略。

例如：

有答案时能解释
不代表无答案时能推理

这对 latent reasoning / context compression 很关键：

把 privileged context 下的行为蒸回模型，到底是在学“压缩后的充分状态”，还是在学“数据集 shortcut”？

#18. 对 LLM Agent / model-based RL / latent reasoning 的启发

#18.1 Agent OPD 的层级 credit assignment

当前 OPD 多数还是 token-level。但 Agent 需要：

token-level
step-level
subgoal-level
trajectory-level

多层反馈。可以研究：

如何把 teacher feedback 分解到 Agent 的 action、observation usage、memory update、planning step 上？

这可能比简单 GRPO 更适合长轨迹 Agent。

#18.2 Model-based OPD：用世界模型生成“教师可评价状态”

OPD 最大问题之一是学生探索不足。如果有 world model / environment model，可以 imagination rollout 出更多状态，再让 teacher 或 verifier 给反馈。

这会变成：

student policy
→ imagined trajectories
→ teacher/verifier feedback
→ dense distillation / policy update

这和 Dreamer for LLM Agent 很契合。

#18.3 Latent OPD：不要蒸 token，蒸“决策充分状态”

Token-level KL 可能太表层。真正重要的是：

当前任务状态表示
下一步意图
计划结构
工具选择依据

可以想象 Latent OPD：

teacher latent state / plan representation
→ student latent state

而不是只匹配 token。

#18.4 Decision-sufficient OPD

不是所有 token 都值得蒸。真正重要的是决策点：

选择方法；
选择工具；
选择检索 query；
判断是否停止；
判断是否反思；
判断是否调用 verifier。

研究问题：

如何自动识别 OPD 中的 decision-critical tokens / steps？

Fast OPD 的 prefix idea 是一个初步方向，但更 general 的版本应该是 decision-sufficient distillation。

#18.5 Teacher reliability as uncertainty modeling

目前很多 OPD 失败来自 teacher 在 student prefix 上不可靠。可以研究：

teacher confidence
teacher-student support overlap
prefix abnormality
outcome consistency

并用这些量控制是否蒸馏、蒸多少、蒸哪一层。

这本质上是 OPD 里的 uncertainty-aware / calibration-aware learning。

#19. 建议阅读路径

#20. 最后总结

OPD 不是一个孤立技巧，而是 LLM 后训练从“静态数据拟合”走向“动态策略学习”的一个重要信号。

它背后的主线是：

模型不是一次性生成答案，
而是在自己造成的状态分布中连续决策。

所以训练也必须进入这个状态分布。这就是 OPD 的本质。

但当前 OPD 仍然有很大未解问题：

学生探索不足；
teacher 在学生状态上不可靠；
token-level KL 与任务成功不一致；
Agent 长轨迹 credit assignment 仍难；
黑盒 judge/rubric 容易偏；
成本高；
安全、隐私、合规还早期；
latent / decision-level distillation 尚未充分展开。

我的判断是：OPD 最值得继续追的不是“又一个 KL loss”，而是把它和 Agent 的长轨迹决策、world model、latent state、decision-critical compression 结合起来。这可能会比单纯在 math benchmark 上刷 OPD recipe 更有基础研究价值。

#大模型 OPD：经典工作、发展逻辑与最新问题

#0. 一句话核心结论

#1. OPD 到底是什么？

#1.1 严格定义

#1.2 人话解释

#2. OPD 和 SFT、offline KD、DPO、RL 的关系

#2.1 OPD vs SFT

#2.2 OPD vs offline KD

#2.3 OPD vs RL

#2.4 OPD vs DPO

#3. 发展脉络：OPD 为什么会出现？

#4. 阶段一：问题根源——exposure bias 与 imitation learning

#4.1 DAgger

#4.2 Scheduled Sampling 与 exposure bias

#5. 阶段二：传统 KD 到 LLM OPD 的转折

#5.1 Knowledge Distillation 基础

#5.2 Sequence-Level KD

#6. 阶段三：LLM OPD 的两个种子工作，2023/2024

#6.1 MiniLLM：reverse KL + on-policy LLM distillation

#6.2 GKD：正式把 self-generated mistakes 变成 LLM OPD 经典问题

#7. 阶段四：工业化配方，2025

#7.1 Qwen3：OPD 进入大模型后训练 recipe

#7.2 Thinking Machines Lab：把 OPD 工程化解释成 RL trainer 里的 dense distillation

#8. 阶段五：2026 爆发——OPD 从方法变成研究方向

#9. 白盒 token/logit OPD 路线

#9.1 Rethinking OPD：机制、现象与 recipe

#9.2 Revisiting OPD：失败模式与简单修复

#9.3 Entropy-Aware OPD：处理 teacher uncertainty

#9.4 vOPD / KL for a KL：降低 OPD 方差

#10. 黑盒 OPD：没有 teacher logits 怎么办？

#10.1 GAD / Black-Box OPD

#10.2 OVD：On-policy Verbal Distillation

#10.3 ROPD：Rubric-based OPD

#11. OPSD：On-Policy Self-Distillation，自蒸馏路线

#11.1 Self-Distilled Reasoner

#12. OPD + RL 统一路线

#12.1 G-OPD / ExOPD

#12.2 SCOPE：Signal-Calibrated OPD

#12.3 Long-context OPD / Distilled GRPO

#13. 多模态、跨模态与 Agent OPD

#13.1 X-OPD：Speech LLM 跨模态 OPD

#13.2 Uni-OPD：统一 OPD recipe

#13.3 SOD：Step-wise OPD for Small Language Model Agents

#14. 隐私、安全与效率方向

#14.1 DP-OPD

#14.2 Fast OPD / Prefix OPD

#14.3 Lightning OPD

#15. 经典/代表工作时间线

#16. 方法分类总表

#17. 当前最新存在的问题

#17.1 教师在学生状态上不一定可靠

#17.2 token-level KL 不一定等价于任务成功

#17.3 OPD 会不会限制学生超越教师？

#17.4 学生探索不足

#17.5 成本问题非常现实

#17.6 黑盒 OPD 的 judge/rubric 偏差

#17.7 Agent 场景下 credit assignment 仍远未解决

#17.8 OPSD 是否真的学到可泛化策略？

#18. 对 LLM Agent / model-based RL / latent reasoning 的启发

#18.1 Agent OPD 的层级 credit assignment

#18.2 Model-based OPD：用世界模型生成“教师可评价状态”

#18.3 Latent OPD：不要蒸 token，蒸“决策充分状态”

#18.4 Decision-sufficient OPD

#18.5 Teacher reliability as uncertainty modeling

#19. 建议阅读路径

#入门先读

#理解工业 recipe

#理解失败机制

#理解前沿扩展

#20. 最后总结