主题归档 agentrlreasoning

#目前大模型与 LLM Agent 的 Credit Assignment 研究报告(2023-2026)

#执行摘要(200-300字)

截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显著提升了训练信号密度与稳定性。与之相比,Agent 场景(多轮、工具调用、环境交互、长轨迹)的 credit assignment 更难,主要因奖励稀疏、状态非平稳、工具调用带来的离散-连续混合决策、以及超长 horizon 下的方差与探索成本爆炸。2025 年后出现 WebRL、ReTool、AgentGym-RL、Agent-R1 等工作,显示“Agent 上可做端到端 RL”,但目前仍高度依赖课程学习、结果奖励模型、轨迹截断与分层训练等工程缓解。综合判断:基础 LLM 已进入“可规模化 credit assignment”;Agent 仍处“可行但脆弱”的早期阶段,短期最佳实践是“可验证子任务优先 + 分层/分段 credit + 离线数据与在线 RL 混合”。

#1. 研究范围与问题拆解

  • 时间范围:2023-2026(截至 2026-03-23)。
  • 关注对象分为两类:
  • 基础 LLM:单轮回答、reasoning、code、math 的 post-training credit assignment。
  • LLM Agent:多轮交互、工具调用、环境反馈、长轨迹决策的 credit assignment。
  • 这里的 credit assignment 指:把延迟/弱监督(偏好、结果成败、过程检查、环境回报)分配到 token、step、子轨迹或整条 trajectory,并形成低方差、可扩展的优化信号。

#2. 方法谱系图(文字版)

Credit Assignment in LLM/Agent (2023-2026)
├─ A. 基础 LLM(单轮/短轨迹)
│  ├─ A1. 偏好学习(Preference-based)
│  │  ├─ RLHF/RLAIF(RM + PPO/Policy Gradient + KL约束)
│  │  └─ Direct/Offline Preference Optimization
│  │     ├─ DPO
│  │     ├─ IPO (PsiPO/Identity family)
│  │     ├─ KTO
│  │     ├─ ORPO
│  │     └─ SimPO
│  ├─ A2. 可验证奖励(Verifiable Reward)
│  │  ├─ Outcome Reward(最终答案/单元测试/判题)
│  │  ├─ Process Reward(step-level verifier/PRM)
│  │  └─ Group-relative methods(如 GRPO)
│  └─ A3. 自奖励与迭代蒸馏
│     └─ Self-Rewarding / Iterative DPO / RLAIF自举
│
└─ B. LLM Agent(多轮/工具/长轨迹)
   ├─ B1. 非参数“语言反馈”credit(不改权重)
   │  └─ Reflexion 等 verbal RL
   ├─ B2. 端到端 Agent RL
   │  ├─ 多轮交互训练(AgentGym-RL, Agent-R1)
   │  ├─ 工具调用策略优化(ReTool)
   │  └─ Web任务在线课程学习(WebRL)
   ├─ B3. 分层/分段 credit
   │  ├─ 任务分解(高层计划/低层执行)
   │  ├─ trajectory切片与阶段奖励
   │  └─ hindsight relabel / return decomposition(迁移自经典RL)
   └─ B4. 训练系统层技巧
      ├─ curriculum + replay
      ├─ rollout过滤与失败重加权
      └─ horizon调度与KL/entropy稳定化

#3. 关键方法与代表工作(表格)

类别Credit 粒度主流目标/估计器代表工作(2023-2026)观察
RLHF(RM+RL)序列级偏好 -> token级梯度RM 打分 + PPO/PG + KL;常配 GAE/advantageLlama2 报告;RLAIF vs RLHF(2023/2024)工程成熟,但 RM 偏差与过优化持续存在
RLAIF序列级AI judge 产偏好,后续同 RLHFRLAIF vs RLHF(2023)降低人工标注成本,质量依赖 judge
DPO 家族序列/样本级(离线)将偏好优化写成分类/对比目标DPO(2023), IPO(2023), KTO/ORPO/SimPO(2024)稳定、便宜,成为工业默认选项之一
Process Reward(PRM)step-level每步正确性监督/验证器奖励Let’s Verify Step by Step & PRM800K(2023)对多步推理明显优于纯 outcome
Outcome Reward(ORM)trajectory末端最终成败奖励(答案、测试通过)WebRL 的 ORM(2024/2025)等信号稀疏,常需课程学习与重放缓解
Verifiable RL(RLVR)序列级 + 可判真自动判题奖励,减少主观偏差DeepSeekMath(GRPO, 2024), DeepSeek-R1(2025), 1-shot RLVR(2025)在 math/code/STEM 有高性价比
Group-relative methods组内相对 credit组内基线/相对优势估计GRPO(DeepSeekMath, 2024)通过组内比较降方差、降内存
Verbal RL(无权重更新)trial-level反思文本记忆替代参数更新Reflexion(2023)快速迭代,但上限受上下文与策略偏差限制
Agent 端到端 RLstep/trajectory 混合多轮交互 rollout + outcome/process rewardWebRL(2024/2025), ReTool(2025), AgentGym-RL(2025), Agent-R1(2025)可行性上升,但训练成本与稳定性仍是瓶颈

#4. 研究进展综述

#4.1 基础 LLM:credit assignment 已有“标准栈”

  1. 主流做法:
  • 对话对齐上,2023-2024 的主流从“RLHF 全流程”逐步转向“DPO 家族 + 少量在线 RL 精修”的混合范式。
  • 在可验证任务(math/code)上,主流快速转向 RLVR:用可自动判真的 outcome reward 替代主观偏好打分,显著提升信号质量与可扩展性。
  1. 分配粒度:
  • 训练信号来源多为序列级(偏好或最终正确性),实际更新仍落到 token-level log-prob 梯度。
  • PRM 把 credit 粒度从“整段答案”细化到“step-level”,显著改善长 CoT 的错因定位。
  1. 关键趋势:
  • “RM+PPO”不是消失,而是被更轻量的离线偏好优化覆盖大部分日常对齐。
  • 可验证奖励成为 reasoning/code 强化的核心驱动,尤其在 DeepSeekMath、DeepSeek-R1 之后形成共识。
  • group-relative(如 GRPO)和 reference-free(ORPO/SimPO)本质都在做“更稳定的 advantage/对比估计”。

#4.2 Agent:从 prompt engineering 走向可训练 credit

  1. 2023-2024:
  • 主流仍是 ReAct/Reflexion 类测试时策略改进,credit assignment 主要靠语言反思与记忆,不更新参数或仅轻量微调。
  • WebArena 暴露长任务失败率高,说明“长轨迹 credit”才是核心缺口。
  1. 2024-2025:
  • WebRL、ReTool、AgentGym-RL、Agent-R1 开始把 Agent 显式建模为多轮 RL,出现了在线课程学习、ORM、互动步数调度、工具调用策略学习等机制。
  • 这批工作提供了“端到端 RL 可行”的反例证据,反驳了“Agent RL 完全不可做”的绝对论。
  1. 但与基础 LLM 的差异仍显著:
  • 基础 LLM 多是静态文本分布上的短序列优化;Agent 是环境耦合的长序列控制问题。
  • Agent 的 credit 不仅要分给“说了什么 token”,还要分给“何时调用哪个工具、是否回溯、是否切换子目标”。

#5. 长 trajectory 为何更难

  • 奖励稀疏:多数任务只有最终成功/失败,导致早期动作 credit 极弱。
  • 方差爆炸:horizon 增大时,REINFORCE/PG 估计方差迅速上升,基线再好也难完全抑制。
  • 非平稳性:工具返回、网页状态、外部 API、上下文窗口截断,使状态转移分布持续漂移。
  • 组合动作空间:自然语言 token + 工具参数 + 行为控制(继续/终止/回溯)是混合动作空间。
  • 观测可得性差:很多失败是“中间策略错误”而非最后一步错误,单一 outcome reward 难定位。

#6. 缓解思路:工程技巧 vs 范式变化

#6.1 工程技巧(短中期主力)

  • 课程学习与 horizon 调度:先短交互/高确定子任务,再逐步放开长轨迹(WebRL, AgentGym-RL)。
  • 轨迹过滤与重放:保留高价值失败样本,做 hindsight relabel/优先重放(部分工作有体现,细节实现差异大)。
  • 奖励塑形:把最终 reward 拆成中间里程碑(tool-call 正确率、子任务达成度、格式正确性)。
  • 多重基线降方差:组内相对奖励、leave-one-out、KL 正则与 entropy 约束联合。
  • 混合训练:SFT 冷启动 + offline preference/RL + 少量 online RL。

#6.2 范式变化(中长期)

  • 从“答案对齐”到“决策过程对齐”:PRM/Verifier/过程监督成为核心对象,而非只看最终文本。
  • 从“静态偏好数据”到“交互数据飞轮”:Agent 在线采样、自动造课(self-evolving curriculum)与自举奖励。
  • 从“单一标量奖励”到“层级 credit”:高层目标选择与低层动作执行分开赋值与优化。

#7. 共识与分歧

#7.1 共识

  • 在基础 LLM 上,离线偏好优化(DPO 家族)+ 可验证奖励 RL 已是主流组合。
  • 过程监督通常优于纯结果监督,尤其在长推理链条上。
  • Agent 的核心瓶颈不是“生成能力不够”,而是 credit assignment 与探索效率。

#7.2 分歧

  • 是否必须在线 RL:一派认为 offline preference + rejection sampling 足够,另一派强调在线交互是 Agent 能力上限所必需。
  • process vs outcome 的投入比:过程标注成本高,是否值得全面铺开仍有争议。
  • 统一框架可行性:是否能用一套算法同时覆盖 reasoning、tool-use、web、code agent,尚无定论。

#8. 关于“LLM Agent 上直接做 RL 不可持续”的证据与反例

#8.1 支持该观点的证据

  • 训练成本高:真实环境 rollouts 昂贵且慢,样本效率低。
  • 稳定性差:长 horizon 下策略坍塌、reward hacking、模式退化更常见。
  • 泛化不稳:在一个环境上学到的 credit 规则难迁移到新工具/新网站。

#8.2 反例与修正

  • 反例:WebRL、ReTool、AgentGym-RL、Agent-R1 显示只要有课程学习、可验证/结果奖励、分段训练,Agent RL 可以显著提升。
  • 修正后的判断:
  • “直接、裸奔、无结构的端到端 RL”在通用 Agent 上不可持续。
  • “有结构先验(层级/课程/验证器/混合离线在线)的 RL”在特定域已可持续并可复制。

#9. 未来方向判断(2026-2028)

  1. 高置信趋势:
  • Verifier-centric training:奖励模型从“偏好打分器”转向“过程/结果验证器组合”。
  • Hierarchical credit assignment:计划层与执行层分开建模,跨层 return decomposition 成为标准配置。
  • Agent 专用 advantage estimation:结合工具调用事件与文本 token 的混合 advantage 估计器。
  1. 关键待突破点:
  • 低成本在线交互(高保真模拟器、模型内世界模型)。
  • 跨环境迁移 credit(从 Web 到 code 到 enterprise workflow)。
  • 防 reward hacking 的鲁棒评估闭环。
  1. 风险判断:
  • 若缺少统一、可复现实验基准,Agent RL 可能继续停留在“点状 SOTA + 不可复现工程”。

#10. 结论

  • 基础 LLM:credit assignment 已从“能训”进入“可规模化工程化”,主流是 DPO 家族与可验证奖励 RL 的融合。
  • LLM Agent:进入“从提示工程到可训练策略”的过渡期;端到端 RL 已有实证可行性,但仍依赖重工程与任务结构化。
  • 最务实路线:先把任务转化为可验证子目标,再做分层/分段 credit,再用小规模在线 RL 闭环,而非直接全局长轨迹 RL。

#11. 参考文献(按主题)

#11.1 偏好学习与对齐

  1. Rafailov et al. (2023/2024). Direct Preference Optimization. arXiv:2305.18290. https://arxiv.org/abs/2305.18290
  2. Azar et al. (2023). A General Theoretical Paradigm to Understand Learning from Human Preferences (含 IPO/PsiPO 视角). arXiv:2310.12036. https://arxiv.org/abs/2310.12036
  3. Ethayarajh et al. (2024). KTO. arXiv:2402.01306. https://arxiv.org/abs/2402.01306
  4. Hong et al. (2024). ORPO. arXiv:2403.07691. https://arxiv.org/abs/2403.07691
  5. Meng et al. (2024). SimPO. arXiv:2405.14734. https://arxiv.org/abs/2405.14734
  6. Lee et al. (2023/2024). RLAIF vs RLHF. arXiv:2309.00267. https://arxiv.org/abs/2309.00267
  7. Yuan et al. (2024/2025). Self-Rewarding Language Models. arXiv:2401.10020. https://arxiv.org/abs/2401.10020
  8. Bai et al. (2022). Constitutional AI(RLAIF先导). arXiv:2212.08073. https://arxiv.org/abs/2212.08073

#11.2 过程/结果奖励与可验证 RL

  1. Lightman et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050. https://arxiv.org/abs/2305.20050
  2. OpenAI PRM800K dataset (2023). https://github.com/openai/prm800k
  3. Shao et al. (2024). DeepSeekMath (GRPO). arXiv:2402.03300. https://arxiv.org/abs/2402.03300
  4. DeepSeek-AI et al. (2025/2026). DeepSeek-R1. arXiv:2501.12948. https://arxiv.org/abs/2501.12948
  5. Wang et al. (2025). 1-shot RLVR. arXiv:2504.20571. https://arxiv.org/abs/2504.20571

#11.3 Agent、长轨迹与工具调用

  1. Zhou et al. (2023/2024). WebArena benchmark. arXiv:2307.13854. https://arxiv.org/abs/2307.13854
  2. Qi et al. (2024/2025). WebRL. arXiv:2411.02337. https://arxiv.org/abs/2411.02337
  3. Feng et al. (2025). ReTool. arXiv:2504.11536. https://arxiv.org/abs/2504.11536
  4. Xi et al. (2025). AgentGym-RL. arXiv:2509.08755. https://arxiv.org/abs/2509.08755
  5. Cheng et al. (2025). Agent-R1. arXiv:2511.14460. https://arxiv.org/abs/2511.14460
  6. Zhang et al. (2025). Agent models / AutoCoA. arXiv:2503.06580. https://arxiv.org/abs/2503.06580
  7. Shinn et al. (2023). Reflexion (verbal RL). arXiv:2303.11366. https://arxiv.org/abs/2303.11366
  8. Patil et al. (2023). Gorilla (tool-use API benchmark/model). arXiv:2305.15334. https://arxiv.org/abs/2305.15334

#11.4 背景性技术报告(用于对齐上下文)

  1. Touvron et al. (2023). Llama 2 report(RLHF工程实践背景). arXiv:2307.09288. https://arxiv.org/abs/2307.09288
  2. Rozière et al. (2023/2024). Code Llama report(代码域后训练背景). arXiv:2308.12950. https://arxiv.org/abs/2308.12950

#12. 待核实与证据等级说明

  • 待核实 A:2025 年后部分 Agent RL 工作仍为预印本,跨基准可复现性与工业可迁移性证据不足。
  • 待核实 B:部分论文报告的“超过闭源模型”受评测设置、任务分布和成本预算影响,横向对比需统一 protocol。
  • 待核实 C:关于“统一 Agent RL 框架”的结论目前更多是方法学主张,尚缺长期稳定大规模复现实验。