主题归档 agent rl reasoning

#目前大模型与 LLM Agent 的 Credit Assignment 研究报告（2023-2026）

#执行摘要（200-300字）

截至 2026-03，LLM 领域的 credit assignment 已形成两条主线：其一是“偏好学习主线”（RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等），其核心是把序列级偏好信号转成 token 级可优化目标；其二是“可验证奖励主线”（RLVR、GRPO、过程奖励 PRM、结果奖励 ORM），在数学/代码等可判真任务上显著提升了训练信号密度与稳定性。与之相比，Agent 场景（多轮、工具调用、环境交互、长轨迹）的 credit assignment 更难，主要因奖励稀疏、状态非平稳、工具调用带来的离散-连续混合决策、以及超长 horizon 下的方差与探索成本爆炸。2025 年后出现 WebRL、ReTool、AgentGym-RL、Agent-R1 等工作，显示“Agent 上可做端到端 RL”，但目前仍高度依赖课程学习、结果奖励模型、轨迹截断与分层训练等工程缓解。综合判断：基础 LLM 已进入“可规模化 credit assignment”；Agent 仍处“可行但脆弱”的早期阶段，短期最佳实践是“可验证子任务优先 + 分层/分段 credit + 离线数据与在线 RL 混合”。

#1. 研究范围与问题拆解

时间范围：2023-2026（截至 2026-03-23）。
关注对象分为两类：
基础 LLM：单轮回答、reasoning、code、math 的 post-training credit assignment。
LLM Agent：多轮交互、工具调用、环境反馈、长轨迹决策的 credit assignment。
这里的 credit assignment 指：把延迟/弱监督（偏好、结果成败、过程检查、环境回报）分配到 token、step、子轨迹或整条 trajectory，并形成低方差、可扩展的优化信号。

#2. 方法谱系图（文字版）

Credit Assignment in LLM/Agent (2023-2026)
├─ A. 基础 LLM（单轮/短轨迹）
│  ├─ A1. 偏好学习（Preference-based）
│  │  ├─ RLHF/RLAIF（RM + PPO/Policy Gradient + KL约束）
│  │  └─ Direct/Offline Preference Optimization
│  │     ├─ DPO
│  │     ├─ IPO (PsiPO/Identity family)
│  │     ├─ KTO
│  │     ├─ ORPO
│  │     └─ SimPO
│  ├─ A2. 可验证奖励（Verifiable Reward）
│  │  ├─ Outcome Reward（最终答案/单元测试/判题）
│  │  ├─ Process Reward（step-level verifier/PRM）
│  │  └─ Group-relative methods（如 GRPO）
│  └─ A3. 自奖励与迭代蒸馏
│     └─ Self-Rewarding / Iterative DPO / RLAIF自举
│
└─ B. LLM Agent（多轮/工具/长轨迹）
   ├─ B1. 非参数“语言反馈”credit（不改权重）
   │  └─ Reflexion 等 verbal RL
   ├─ B2. 端到端 Agent RL
   │  ├─ 多轮交互训练（AgentGym-RL, Agent-R1）
   │  ├─ 工具调用策略优化（ReTool）
   │  └─ Web任务在线课程学习（WebRL）
   ├─ B3. 分层/分段 credit
   │  ├─ 任务分解（高层计划/低层执行）
   │  ├─ trajectory切片与阶段奖励
   │  └─ hindsight relabel / return decomposition（迁移自经典RL）
   └─ B4. 训练系统层技巧
      ├─ curriculum + replay
      ├─ rollout过滤与失败重加权
      └─ horizon调度与KL/entropy稳定化

#3. 关键方法与代表工作（表格）

类别	Credit 粒度	主流目标/估计器	代表工作（2023-2026）	观察
RLHF（RM+RL）	序列级偏好 -> token级梯度	RM 打分 + PPO/PG + KL；常配 GAE/advantage	Llama2 报告；RLAIF vs RLHF（2023/2024）	工程成熟，但 RM 偏差与过优化持续存在
RLAIF	序列级	AI judge 产偏好，后续同 RLHF	RLAIF vs RLHF（2023）	降低人工标注成本，质量依赖 judge
DPO 家族	序列/样本级（离线）	将偏好优化写成分类/对比目标	DPO（2023）, IPO（2023）, KTO/ORPO/SimPO（2024）	稳定、便宜，成为工业默认选项之一
Process Reward（PRM）	step-level	每步正确性监督/验证器奖励	Let’s Verify Step by Step & PRM800K（2023）	对多步推理明显优于纯 outcome
Outcome Reward（ORM）	trajectory末端	最终成败奖励（答案、测试通过）	WebRL 的 ORM（2024/2025）等	信号稀疏，常需课程学习与重放缓解
Verifiable RL（RLVR）	序列级 + 可判真	自动判题奖励，减少主观偏差	DeepSeekMath(GRPO, 2024), DeepSeek-R1(2025), 1-shot RLVR(2025)	在 math/code/STEM 有高性价比
Group-relative methods	组内相对 credit	组内基线/相对优势估计	GRPO（DeepSeekMath, 2024）	通过组内比较降方差、降内存
Verbal RL（无权重更新）	trial-level	反思文本记忆替代参数更新	Reflexion（2023）	快速迭代，但上限受上下文与策略偏差限制
Agent 端到端 RL	step/trajectory 混合	多轮交互 rollout + outcome/process reward	WebRL（2024/2025）, ReTool（2025）, AgentGym-RL（2025）, Agent-R1（2025）	可行性上升，但训练成本与稳定性仍是瓶颈

#4. 研究进展综述

#4.1 基础 LLM：credit assignment 已有“标准栈”

主流做法：

对话对齐上，2023-2024 的主流从“RLHF 全流程”逐步转向“DPO 家族 + 少量在线 RL 精修”的混合范式。
在可验证任务（math/code）上，主流快速转向 RLVR：用可自动判真的 outcome reward 替代主观偏好打分，显著提升信号质量与可扩展性。

分配粒度：

训练信号来源多为序列级（偏好或最终正确性），实际更新仍落到 token-level log-prob 梯度。
PRM 把 credit 粒度从“整段答案”细化到“step-level”，显著改善长 CoT 的错因定位。

关键趋势：

“RM+PPO”不是消失，而是被更轻量的离线偏好优化覆盖大部分日常对齐。
可验证奖励成为 reasoning/code 强化的核心驱动，尤其在 DeepSeekMath、DeepSeek-R1 之后形成共识。
group-relative（如 GRPO）和 reference-free（ORPO/SimPO）本质都在做“更稳定的 advantage/对比估计”。

#4.2 Agent：从 prompt engineering 走向可训练 credit

2023-2024：

主流仍是 ReAct/Reflexion 类测试时策略改进，credit assignment 主要靠语言反思与记忆，不更新参数或仅轻量微调。
WebArena 暴露长任务失败率高，说明“长轨迹 credit”才是核心缺口。

2024-2025：

WebRL、ReTool、AgentGym-RL、Agent-R1 开始把 Agent 显式建模为多轮 RL，出现了在线课程学习、ORM、互动步数调度、工具调用策略学习等机制。
这批工作提供了“端到端 RL 可行”的反例证据，反驳了“Agent RL 完全不可做”的绝对论。

但与基础 LLM 的差异仍显著：

基础 LLM 多是静态文本分布上的短序列优化；Agent 是环境耦合的长序列控制问题。
Agent 的 credit 不仅要分给“说了什么 token”，还要分给“何时调用哪个工具、是否回溯、是否切换子目标”。

#5. 长 trajectory 为何更难

奖励稀疏：多数任务只有最终成功/失败，导致早期动作 credit 极弱。
方差爆炸：horizon 增大时，REINFORCE/PG 估计方差迅速上升，基线再好也难完全抑制。
非平稳性：工具返回、网页状态、外部 API、上下文窗口截断，使状态转移分布持续漂移。
组合动作空间：自然语言 token + 工具参数 + 行为控制（继续/终止/回溯）是混合动作空间。
观测可得性差：很多失败是“中间策略错误”而非最后一步错误，单一 outcome reward 难定位。

#6. 缓解思路：工程技巧 vs 范式变化

#6.1 工程技巧（短中期主力）

课程学习与 horizon 调度：先短交互/高确定子任务，再逐步放开长轨迹（WebRL, AgentGym-RL）。
轨迹过滤与重放：保留高价值失败样本，做 hindsight relabel/优先重放（部分工作有体现，细节实现差异大）。
奖励塑形：把最终 reward 拆成中间里程碑（tool-call 正确率、子任务达成度、格式正确性）。
多重基线降方差：组内相对奖励、leave-one-out、KL 正则与 entropy 约束联合。
混合训练：SFT 冷启动 + offline preference/RL + 少量 online RL。

#6.2 范式变化（中长期）

从“答案对齐”到“决策过程对齐”：PRM/Verifier/过程监督成为核心对象，而非只看最终文本。
从“静态偏好数据”到“交互数据飞轮”：Agent 在线采样、自动造课（self-evolving curriculum）与自举奖励。
从“单一标量奖励”到“层级 credit”：高层目标选择与低层动作执行分开赋值与优化。

#7. 共识与分歧

#7.1 共识

在基础 LLM 上，离线偏好优化（DPO 家族）+ 可验证奖励 RL 已是主流组合。
过程监督通常优于纯结果监督，尤其在长推理链条上。
Agent 的核心瓶颈不是“生成能力不够”，而是 credit assignment 与探索效率。

#7.2 分歧

是否必须在线 RL：一派认为 offline preference + rejection sampling 足够，另一派强调在线交互是 Agent 能力上限所必需。
process vs outcome 的投入比：过程标注成本高，是否值得全面铺开仍有争议。
统一框架可行性：是否能用一套算法同时覆盖 reasoning、tool-use、web、code agent，尚无定论。

#8. 关于“LLM Agent 上直接做 RL 不可持续”的证据与反例

#8.1 支持该观点的证据

训练成本高：真实环境 rollouts 昂贵且慢，样本效率低。
稳定性差：长 horizon 下策略坍塌、reward hacking、模式退化更常见。
泛化不稳：在一个环境上学到的 credit 规则难迁移到新工具/新网站。

#8.2 反例与修正

反例：WebRL、ReTool、AgentGym-RL、Agent-R1 显示只要有课程学习、可验证/结果奖励、分段训练，Agent RL 可以显著提升。
修正后的判断：
“直接、裸奔、无结构的端到端 RL”在通用 Agent 上不可持续。
“有结构先验（层级/课程/验证器/混合离线在线）的 RL”在特定域已可持续并可复制。

#9. 未来方向判断（2026-2028）

高置信趋势：

Verifier-centric training：奖励模型从“偏好打分器”转向“过程/结果验证器组合”。
Hierarchical credit assignment：计划层与执行层分开建模，跨层 return decomposition 成为标准配置。
Agent 专用 advantage estimation：结合工具调用事件与文本 token 的混合 advantage 估计器。

关键待突破点：

低成本在线交互（高保真模拟器、模型内世界模型）。
跨环境迁移 credit（从 Web 到 code 到 enterprise workflow）。
防 reward hacking 的鲁棒评估闭环。

风险判断：

若缺少统一、可复现实验基准，Agent RL 可能继续停留在“点状 SOTA + 不可复现工程”。

#10. 结论

基础 LLM：credit assignment 已从“能训”进入“可规模化工程化”，主流是 DPO 家族与可验证奖励 RL 的融合。
LLM Agent：进入“从提示工程到可训练策略”的过渡期；端到端 RL 已有实证可行性，但仍依赖重工程与任务结构化。
最务实路线：先把任务转化为可验证子目标，再做分层/分段 credit，再用小规模在线 RL 闭环，而非直接全局长轨迹 RL。

#11. 参考文献（按主题）

#11.1 偏好学习与对齐

Rafailov et al. (2023/2024). Direct Preference Optimization. arXiv:2305.18290. https://arxiv.org/abs/2305.18290
Azar et al. (2023). A General Theoretical Paradigm to Understand Learning from Human Preferences (含 IPO/PsiPO 视角). arXiv:2310.12036. https://arxiv.org/abs/2310.12036
Ethayarajh et al. (2024). KTO. arXiv:2402.01306. https://arxiv.org/abs/2402.01306
Hong et al. (2024). ORPO. arXiv:2403.07691. https://arxiv.org/abs/2403.07691
Meng et al. (2024). SimPO. arXiv:2405.14734. https://arxiv.org/abs/2405.14734
Lee et al. (2023/2024). RLAIF vs RLHF. arXiv:2309.00267. https://arxiv.org/abs/2309.00267
Yuan et al. (2024/2025). Self-Rewarding Language Models. arXiv:2401.10020. https://arxiv.org/abs/2401.10020
Bai et al. (2022). Constitutional AI（RLAIF先导）. arXiv:2212.08073. https://arxiv.org/abs/2212.08073

#11.2 过程/结果奖励与可验证 RL

Lightman et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050. https://arxiv.org/abs/2305.20050
OpenAI PRM800K dataset (2023). https://github.com/openai/prm800k
Shao et al. (2024). DeepSeekMath (GRPO). arXiv:2402.03300. https://arxiv.org/abs/2402.03300
DeepSeek-AI et al. (2025/2026). DeepSeek-R1. arXiv:2501.12948. https://arxiv.org/abs/2501.12948
Wang et al. (2025). 1-shot RLVR. arXiv:2504.20571. https://arxiv.org/abs/2504.20571

#11.3 Agent、长轨迹与工具调用

Zhou et al. (2023/2024). WebArena benchmark. arXiv:2307.13854. https://arxiv.org/abs/2307.13854
Qi et al. (2024/2025). WebRL. arXiv:2411.02337. https://arxiv.org/abs/2411.02337
Feng et al. (2025). ReTool. arXiv:2504.11536. https://arxiv.org/abs/2504.11536
Xi et al. (2025). AgentGym-RL. arXiv:2509.08755. https://arxiv.org/abs/2509.08755
Cheng et al. (2025). Agent-R1. arXiv:2511.14460. https://arxiv.org/abs/2511.14460
Zhang et al. (2025). Agent models / AutoCoA. arXiv:2503.06580. https://arxiv.org/abs/2503.06580
Shinn et al. (2023). Reflexion (verbal RL). arXiv:2303.11366. https://arxiv.org/abs/2303.11366
Patil et al. (2023). Gorilla (tool-use API benchmark/model). arXiv:2305.15334. https://arxiv.org/abs/2305.15334

#11.4 背景性技术报告（用于对齐上下文）

Touvron et al. (2023). Llama 2 report（RLHF工程实践背景）. arXiv:2307.09288. https://arxiv.org/abs/2307.09288
Rozière et al. (2023/2024). Code Llama report（代码域后训练背景）. arXiv:2308.12950. https://arxiv.org/abs/2308.12950

#12. 待核实与证据等级说明

待核实 A：2025 年后部分 Agent RL 工作仍为预印本，跨基准可复现性与工业可迁移性证据不足。
待核实 B：部分论文报告的“超过闭源模型”受评测设置、任务分布和成本预算影响，横向对比需统一 protocol。
待核实 C：关于“统一 Agent RL 框架”的结论目前更多是方法学主张，尚缺长期稳定大规模复现实验。