#目前大模型与 LLM Agent 的 Credit Assignment 研究报告(2023-2026)
#执行摘要(200-300字)
截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显著提升了训练信号密度与稳定性。与之相比,Agent 场景(多轮、工具调用、环境交互、长轨迹)的 credit assignment 更难,主要因奖励稀疏、状态非平稳、工具调用带来的离散-连续混合决策、以及超长 horizon 下的方差与探索成本爆炸。2025 年后出现 WebRL、ReTool、AgentGym-RL、Agent-R1 等工作,显示“Agent 上可做端到端 RL”,但目前仍高度依赖课程学习、结果奖励模型、轨迹截断与分层训练等工程缓解。综合判断:基础 LLM 已进入“可规模化 credit assignment”;Agent 仍处“可行但脆弱”的早期阶段,短期最佳实践是“可验证子任务优先 + 分层/分段 credit + 离线数据与在线 RL 混合”。
#1. 研究范围与问题拆解
- 时间范围:2023-2026(截至 2026-03-23)。
- 关注对象分为两类:
- 基础 LLM:单轮回答、reasoning、code、math 的 post-training credit assignment。
- LLM Agent:多轮交互、工具调用、环境反馈、长轨迹决策的 credit assignment。
- 这里的 credit assignment 指:把延迟/弱监督(偏好、结果成败、过程检查、环境回报)分配到 token、step、子轨迹或整条 trajectory,并形成低方差、可扩展的优化信号。
#2. 方法谱系图(文字版)
Credit Assignment in LLM/Agent (2023-2026)
├─ A. 基础 LLM(单轮/短轨迹)
│ ├─ A1. 偏好学习(Preference-based)
│ │ ├─ RLHF/RLAIF(RM + PPO/Policy Gradient + KL约束)
│ │ └─ Direct/Offline Preference Optimization
│ │ ├─ DPO
│ │ ├─ IPO (PsiPO/Identity family)
│ │ ├─ KTO
│ │ ├─ ORPO
│ │ └─ SimPO
│ ├─ A2. 可验证奖励(Verifiable Reward)
│ │ ├─ Outcome Reward(最终答案/单元测试/判题)
│ │ ├─ Process Reward(step-level verifier/PRM)
│ │ └─ Group-relative methods(如 GRPO)
│ └─ A3. 自奖励与迭代蒸馏
│ └─ Self-Rewarding / Iterative DPO / RLAIF自举
│
└─ B. LLM Agent(多轮/工具/长轨迹)
├─ B1. 非参数“语言反馈”credit(不改权重)
│ └─ Reflexion 等 verbal RL
├─ B2. 端到端 Agent RL
│ ├─ 多轮交互训练(AgentGym-RL, Agent-R1)
│ ├─ 工具调用策略优化(ReTool)
│ └─ Web任务在线课程学习(WebRL)
├─ B3. 分层/分段 credit
│ ├─ 任务分解(高层计划/低层执行)
│ ├─ trajectory切片与阶段奖励
│ └─ hindsight relabel / return decomposition(迁移自经典RL)
└─ B4. 训练系统层技巧
├─ curriculum + replay
├─ rollout过滤与失败重加权
└─ horizon调度与KL/entropy稳定化
#3. 关键方法与代表工作(表格)
| 类别 | Credit 粒度 | 主流目标/估计器 | 代表工作(2023-2026) | 观察 |
|---|---|---|---|---|
| RLHF(RM+RL) | 序列级偏好 -> token级梯度 | RM 打分 + PPO/PG + KL;常配 GAE/advantage | Llama2 报告;RLAIF vs RLHF(2023/2024) | 工程成熟,但 RM 偏差与过优化持续存在 |
| RLAIF | 序列级 | AI judge 产偏好,后续同 RLHF | RLAIF vs RLHF(2023) | 降低人工标注成本,质量依赖 judge |
| DPO 家族 | 序列/样本级(离线) | 将偏好优化写成分类/对比目标 | DPO(2023), IPO(2023), KTO/ORPO/SimPO(2024) | 稳定、便宜,成为工业默认选项之一 |
| Process Reward(PRM) | step-level | 每步正确性监督/验证器奖励 | Let’s Verify Step by Step & PRM800K(2023) | 对多步推理明显优于纯 outcome |
| Outcome Reward(ORM) | trajectory末端 | 最终成败奖励(答案、测试通过) | WebRL 的 ORM(2024/2025)等 | 信号稀疏,常需课程学习与重放缓解 |
| Verifiable RL(RLVR) | 序列级 + 可判真 | 自动判题奖励,减少主观偏差 | DeepSeekMath(GRPO, 2024), DeepSeek-R1(2025), 1-shot RLVR(2025) | 在 math/code/STEM 有高性价比 |
| Group-relative methods | 组内相对 credit | 组内基线/相对优势估计 | GRPO(DeepSeekMath, 2024) | 通过组内比较降方差、降内存 |
| Verbal RL(无权重更新) | trial-level | 反思文本记忆替代参数更新 | Reflexion(2023) | 快速迭代,但上限受上下文与策略偏差限制 |
| Agent 端到端 RL | step/trajectory 混合 | 多轮交互 rollout + outcome/process reward | WebRL(2024/2025), ReTool(2025), AgentGym-RL(2025), Agent-R1(2025) | 可行性上升,但训练成本与稳定性仍是瓶颈 |
#4. 研究进展综述
#4.1 基础 LLM:credit assignment 已有“标准栈”
- 主流做法:
- 对话对齐上,2023-2024 的主流从“RLHF 全流程”逐步转向“DPO 家族 + 少量在线 RL 精修”的混合范式。
- 在可验证任务(math/code)上,主流快速转向 RLVR:用可自动判真的 outcome reward 替代主观偏好打分,显著提升信号质量与可扩展性。
- 分配粒度:
- 训练信号来源多为序列级(偏好或最终正确性),实际更新仍落到 token-level log-prob 梯度。
- PRM 把 credit 粒度从“整段答案”细化到“step-level”,显著改善长 CoT 的错因定位。
- 关键趋势:
- “RM+PPO”不是消失,而是被更轻量的离线偏好优化覆盖大部分日常对齐。
- 可验证奖励成为 reasoning/code 强化的核心驱动,尤其在 DeepSeekMath、DeepSeek-R1 之后形成共识。
- group-relative(如 GRPO)和 reference-free(ORPO/SimPO)本质都在做“更稳定的 advantage/对比估计”。
#4.2 Agent:从 prompt engineering 走向可训练 credit
- 2023-2024:
- 主流仍是 ReAct/Reflexion 类测试时策略改进,credit assignment 主要靠语言反思与记忆,不更新参数或仅轻量微调。
- WebArena 暴露长任务失败率高,说明“长轨迹 credit”才是核心缺口。
- 2024-2025:
- WebRL、ReTool、AgentGym-RL、Agent-R1 开始把 Agent 显式建模为多轮 RL,出现了在线课程学习、ORM、互动步数调度、工具调用策略学习等机制。
- 这批工作提供了“端到端 RL 可行”的反例证据,反驳了“Agent RL 完全不可做”的绝对论。
- 但与基础 LLM 的差异仍显著:
- 基础 LLM 多是静态文本分布上的短序列优化;Agent 是环境耦合的长序列控制问题。
- Agent 的 credit 不仅要分给“说了什么 token”,还要分给“何时调用哪个工具、是否回溯、是否切换子目标”。
#5. 长 trajectory 为何更难
- 奖励稀疏:多数任务只有最终成功/失败,导致早期动作 credit 极弱。
- 方差爆炸:horizon 增大时,REINFORCE/PG 估计方差迅速上升,基线再好也难完全抑制。
- 非平稳性:工具返回、网页状态、外部 API、上下文窗口截断,使状态转移分布持续漂移。
- 组合动作空间:自然语言 token + 工具参数 + 行为控制(继续/终止/回溯)是混合动作空间。
- 观测可得性差:很多失败是“中间策略错误”而非最后一步错误,单一 outcome reward 难定位。
#6. 缓解思路:工程技巧 vs 范式变化
#6.1 工程技巧(短中期主力)
- 课程学习与 horizon 调度:先短交互/高确定子任务,再逐步放开长轨迹(WebRL, AgentGym-RL)。
- 轨迹过滤与重放:保留高价值失败样本,做 hindsight relabel/优先重放(部分工作有体现,细节实现差异大)。
- 奖励塑形:把最终 reward 拆成中间里程碑(tool-call 正确率、子任务达成度、格式正确性)。
- 多重基线降方差:组内相对奖励、leave-one-out、KL 正则与 entropy 约束联合。
- 混合训练:SFT 冷启动 + offline preference/RL + 少量 online RL。
#6.2 范式变化(中长期)
- 从“答案对齐”到“决策过程对齐”:PRM/Verifier/过程监督成为核心对象,而非只看最终文本。
- 从“静态偏好数据”到“交互数据飞轮”:Agent 在线采样、自动造课(self-evolving curriculum)与自举奖励。
- 从“单一标量奖励”到“层级 credit”:高层目标选择与低层动作执行分开赋值与优化。
#7. 共识与分歧
#7.1 共识
- 在基础 LLM 上,离线偏好优化(DPO 家族)+ 可验证奖励 RL 已是主流组合。
- 过程监督通常优于纯结果监督,尤其在长推理链条上。
- Agent 的核心瓶颈不是“生成能力不够”,而是 credit assignment 与探索效率。
#7.2 分歧
- 是否必须在线 RL:一派认为 offline preference + rejection sampling 足够,另一派强调在线交互是 Agent 能力上限所必需。
- process vs outcome 的投入比:过程标注成本高,是否值得全面铺开仍有争议。
- 统一框架可行性:是否能用一套算法同时覆盖 reasoning、tool-use、web、code agent,尚无定论。
#8. 关于“LLM Agent 上直接做 RL 不可持续”的证据与反例
#8.1 支持该观点的证据
- 训练成本高:真实环境 rollouts 昂贵且慢,样本效率低。
- 稳定性差:长 horizon 下策略坍塌、reward hacking、模式退化更常见。
- 泛化不稳:在一个环境上学到的 credit 规则难迁移到新工具/新网站。
#8.2 反例与修正
- 反例:WebRL、ReTool、AgentGym-RL、Agent-R1 显示只要有课程学习、可验证/结果奖励、分段训练,Agent RL 可以显著提升。
- 修正后的判断:
- “直接、裸奔、无结构的端到端 RL”在通用 Agent 上不可持续。
- “有结构先验(层级/课程/验证器/混合离线在线)的 RL”在特定域已可持续并可复制。
#9. 未来方向判断(2026-2028)
- 高置信趋势:
- Verifier-centric training:奖励模型从“偏好打分器”转向“过程/结果验证器组合”。
- Hierarchical credit assignment:计划层与执行层分开建模,跨层 return decomposition 成为标准配置。
- Agent 专用 advantage estimation:结合工具调用事件与文本 token 的混合 advantage 估计器。
- 关键待突破点:
- 低成本在线交互(高保真模拟器、模型内世界模型)。
- 跨环境迁移 credit(从 Web 到 code 到 enterprise workflow)。
- 防 reward hacking 的鲁棒评估闭环。
- 风险判断:
- 若缺少统一、可复现实验基准,Agent RL 可能继续停留在“点状 SOTA + 不可复现工程”。
#10. 结论
- 基础 LLM:credit assignment 已从“能训”进入“可规模化工程化”,主流是 DPO 家族与可验证奖励 RL 的融合。
- LLM Agent:进入“从提示工程到可训练策略”的过渡期;端到端 RL 已有实证可行性,但仍依赖重工程与任务结构化。
- 最务实路线:先把任务转化为可验证子目标,再做分层/分段 credit,再用小规模在线 RL 闭环,而非直接全局长轨迹 RL。
#11. 参考文献(按主题)
#11.1 偏好学习与对齐
- Rafailov et al. (2023/2024). Direct Preference Optimization. arXiv:2305.18290. https://arxiv.org/abs/2305.18290
- Azar et al. (2023). A General Theoretical Paradigm to Understand Learning from Human Preferences (含 IPO/PsiPO 视角). arXiv:2310.12036. https://arxiv.org/abs/2310.12036
- Ethayarajh et al. (2024). KTO. arXiv:2402.01306. https://arxiv.org/abs/2402.01306
- Hong et al. (2024). ORPO. arXiv:2403.07691. https://arxiv.org/abs/2403.07691
- Meng et al. (2024). SimPO. arXiv:2405.14734. https://arxiv.org/abs/2405.14734
- Lee et al. (2023/2024). RLAIF vs RLHF. arXiv:2309.00267. https://arxiv.org/abs/2309.00267
- Yuan et al. (2024/2025). Self-Rewarding Language Models. arXiv:2401.10020. https://arxiv.org/abs/2401.10020
- Bai et al. (2022). Constitutional AI(RLAIF先导). arXiv:2212.08073. https://arxiv.org/abs/2212.08073
#11.2 过程/结果奖励与可验证 RL
- Lightman et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050. https://arxiv.org/abs/2305.20050
- OpenAI PRM800K dataset (2023). https://github.com/openai/prm800k
- Shao et al. (2024). DeepSeekMath (GRPO). arXiv:2402.03300. https://arxiv.org/abs/2402.03300
- DeepSeek-AI et al. (2025/2026). DeepSeek-R1. arXiv:2501.12948. https://arxiv.org/abs/2501.12948
- Wang et al. (2025). 1-shot RLVR. arXiv:2504.20571. https://arxiv.org/abs/2504.20571
#11.3 Agent、长轨迹与工具调用
- Zhou et al. (2023/2024). WebArena benchmark. arXiv:2307.13854. https://arxiv.org/abs/2307.13854
- Qi et al. (2024/2025). WebRL. arXiv:2411.02337. https://arxiv.org/abs/2411.02337
- Feng et al. (2025). ReTool. arXiv:2504.11536. https://arxiv.org/abs/2504.11536
- Xi et al. (2025). AgentGym-RL. arXiv:2509.08755. https://arxiv.org/abs/2509.08755
- Cheng et al. (2025). Agent-R1. arXiv:2511.14460. https://arxiv.org/abs/2511.14460
- Zhang et al. (2025). Agent models / AutoCoA. arXiv:2503.06580. https://arxiv.org/abs/2503.06580
- Shinn et al. (2023). Reflexion (verbal RL). arXiv:2303.11366. https://arxiv.org/abs/2303.11366
- Patil et al. (2023). Gorilla (tool-use API benchmark/model). arXiv:2305.15334. https://arxiv.org/abs/2305.15334
#11.4 背景性技术报告(用于对齐上下文)
- Touvron et al. (2023). Llama 2 report(RLHF工程实践背景). arXiv:2307.09288. https://arxiv.org/abs/2307.09288
- Rozière et al. (2023/2024). Code Llama report(代码域后训练背景). arXiv:2308.12950. https://arxiv.org/abs/2308.12950
#12. 待核实与证据等级说明
- 待核实 A:2025 年后部分 Agent RL 工作仍为预印本,跨基准可复现性与工业可迁移性证据不足。
- 待核实 B:部分论文报告的“超过闭源模型”受评测设置、任务分布和成本预算影响,横向对比需统一 protocol。
- 待核实 C:关于“统一 Agent RL 框架”的结论目前更多是方法学主张,尚缺长期稳定大规模复现实验。