每日调研 2026-07-02 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-07-02 AI/LLM 最新论文与研究热点简报

检索时间：2026-07-02 08:00 CST。主要覆盖 arXiv 2026-06-30 至 2026-07-01 的 cs.AI / cs.CL / cs.LG / cs.SE recent，Hugging Face Papers 当日/近两日热门条目，以及 GitHub / Hugging Face API 的可访问公开信息。X/Twitter 未作为主证据源使用：当前自动任务环境不稳定依赖登录态，故用 arXiv、HF、GitHub 作为可验证替代来源。

#0. 今日总览：Agent RL 开始从“终局奖励”转向“轨迹结构化学习”

过去 24-48 小时最密集的新内容集中在四条线：

长轨迹 LLM Agent RL 的 credit assignment / dense supervision：QVal、TRIAGE、ReGRPO、ECHO 都在处理同一个核心问题——长轨迹里“哪一步真正有用”不能再用最终成败粗暴广播到所有 token。
潜空间 / world model / latent reasoning：LOTUS、AdaJEPA、Delta-JEPA、Orca 指向一个趋势：把推理或环境动态压进连续 latent，再在 latent 中循环、规划、适配。
代码 Agent 评测与训练基础设施：SWE-Interact、Dockerless、CoCoMUT、CURE 等把焦点从单轮补丁生成推进到交互式需求澄清、无 Docker verifier、上下文挖掘、API 知识更新。
Agent memory / skill evolution / context compression：ACE、SkillHone、procedural memory、Generative Skill Composition、LUMOS 说明“外部记忆、技能库、语义 OS 层”正在成为 Agent 可扩展性的基础设施。

对 wenjun 当前方向而言，今天最值得优先看的是：QVal + TRIAGE + ECHO 这一组，它们几乎直接服务于长轨迹 Agent RL 的奖励建模、过程监督和上下文压缩问题；再加上 LOTUS / AdaJEPA 作为潜空间推理与 model-based RL 的方法参考。

#1. 重点论文 / 动态精读

#1.1 QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

类别：LLM Agent / Post-training RL / Evaluation / Long-horizon Agent
链接：https://arxiv.org/abs/2606.32034
来源：arXiv cs.AI / cs.CL / cs.LG；Hugging Face Papers
日期：2026-06-30
一句话核心贡献：提出一个 training-free 的测试床，用 Q-alignment 直接评估长轨迹 LLM Agent 的 dense supervision signal 是否真的能判断中间 state-action 的价值，而不必每次都跑完整训练管线。

为什么值得关注：

长轨迹 Agent 的核心难题不是“有没有最终 reward”，而是中间几百上千步里，哪些搜索、点击、编辑、反思是推进任务，哪些只是噪声。现在很多 dense supervision 方法只能通过“接到训练 pipeline 后最终分数是否涨了”来比较，这会把监督质量和工程细节混在一起。QVal 的价值在于：把 dense reward / process supervision 本身拿出来做可比评测。

与 wenjun 研究方向的关系：

如果你要做 LLM Agent model-based RL 或长轨迹 RL，这篇可以作为“奖励模型/过程监督评测协议”的基础参考。尤其适合回答：

一个 learned critic / self-evaluation / embedding similarity signal 是否真的和未来回报相关？
在不大规模 RL 的情况下，如何快速筛选 dense reward 设计？
长轨迹 Agent 的 step-level advantage 能否先离线评估再训练？

#1.2 TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

类别：LLM Agent / Agentic RL / Credit Assignment / Post-training RL
链接：https://arxiv.org/abs/2606.32017
来源：arXiv cs.AI / cs.LG；Hugging Face Papers
日期：2026-06-30
一句话核心贡献：把 Agent 轨迹片段按语义角色分为 decisive progress、useful exploration、no-progress infrastructure、regression，再把最终 verifier outcome 修正为 segment-level process rewards。

为什么值得关注：

标准 GRPO/RLVR 常把最终 verifier 的 outcome advantage 均匀施加到所有动作 token 上。对 Agent 来说这会产生两个明显问题：

失败轨迹中的有用探索被惩罚；
成功轨迹中的冗余、倒退动作被奖励。

TRIAGE 的核心是给 credit assignment 增加一个“语义角色轴”：不是每个成功轨迹里的动作都同等好，也不是每个失败轨迹里的动作都同等坏。

与 wenjun 研究方向的关系：

这篇非常贴近长轨迹 Agent RL。它可以和你的 model-based / latent-state grouping 想法结合：先把轨迹切成 latent subgoal / role segment，再对不同 segment 分配不同 advantage。一个自然扩展是：不只用 judge 标注 role，而是训练一个可泛化的 latent role classifier，用于跨任务 credit assignment。

#1.3 ECHO: Prune to act, trace to learn with selective turn memory in agentic RL

类别：LLM Agent / Context Compression / Agentic RL / Memory
链接：https://arxiv.org/abs/2606.31650
来源：arXiv cs.LG
日期：2026-06-30
一句话核心贡献：提出 selective turn-memory 框架，把长轨迹历史压缩为可用于行动的 compact memory，同时保留 source-indexed reconstruction 以便 RL 时追溯哪些原始证据支撑了成功。

为什么值得关注：

长轨迹 Agent 面临两个耦合问题：

上下文窗口不够，必须压缩/裁剪历史；
一旦历史被压缩，RL 更新时就难以知道最终成功到底依赖了哪些原始观察。

ECHO 试图同时解决“行动时少看”和“学习时可追溯”：执行时用压缩 memory 降低上下文成本，训练时通过源索引重建让 reward 能回流到原始证据。

与 wenjun 研究方向的关系：

这和“通用上下文压缩器”“长轨迹 RL”“agent 预训练数据如何塑造能力”高度相关。可考虑把 ECHO 的 traceable compression 与 QVal/TRIAGE 结合：压缩器不仅服务 inference，还要最大化后续 credit assignment 的可识别性。

#1.4 Bridging the Gap Between Latent and Explicit Reasoning with Looped Transformers

类别：Latent Reasoning / Reasoning Model / Architecture
链接：https://arxiv.org/abs/2606.31779
来源：arXiv cs.CL / cs.LG
日期：2026-06-30
一句话核心贡献：提出 LOTUS，用 looped/recurrent-depth Transformer 在 latent blocks 上迭代计算，并用类似显式 CoT 的逐 latent 位置监督来缩小 latent CoT 与 explicit CoT 的性能差距。

为什么值得关注：

latent CoT 的承诺是减少 token 级推理开销，但已有方法在模型规模超过 1B 后往往落后 explicit CoT。LOTUS 的关键判断是：latent reasoning 需要“可重复使用的深度计算”，而 looped Transformer 正好可以在不增加参数的情况下增加计算深度。

与 wenjun 研究方向的关系：

这篇是潜空间推理方向的直接参考。对 Agent 方向，一个有趣问题是：Agent 的中间 belief state / plan state 是否也可以用 latent loop 来更新，而不是每步都显式写自然语言 reflection？这可能连接到更高效的 long-horizon planning。

#1.5 AdaJEPA: An Adaptive Latent World Model

类别：Model-based RL / Latent World Model / Test-time Adaptation
链接：https://arxiv.org/abs/2606.32026
来源：arXiv cs.AI / cs.LG
日期：2026-06-30
一句话核心贡献：提出在 MPC 闭环中对 JEPA 类 latent world model 做 test-time adaptation：执行一个 action chunk 后用观测到的 transition 自监督更新 world model，再重新规划。

为什么值得关注：

传统 latent world model 在测试时通常冻结；一旦分布偏移或模型预测不准，规划会持续错下去。AdaJEPA 把“执行—观察—自监督更新—再规划”放进闭环，使 world model 在部署时持续校准。

与 wenjun 研究方向的关系：

如果把 LLM Agent 的环境状态看作文本/工具观测 latent，AdaJEPA 提供了一个类比：Agent 的 world model 不应只是离线学出的预测器，而应该在每条任务轨迹中用新 observation 做快速适配。可进一步思考“LLM Agent Dreamer”里是否需要 test-time world model adaptation。

#2. 其他值得扫读的新论文 / 动态

#2.1 ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents

类别：Tool-use / Agentic RL / Multimodal Agent
链接：https://arxiv.org/abs/2606.31392
来源：arXiv cs.AI
日期：2026-06-30
一句话核心贡献：通过 near-miss 工具调用收集 grounded failure observations，构造 Reflection-of-Thought 三元组并在 GRPO 中联合优化反思 token 和纠错动作。
判断：适合和 TRIAGE 对比。TRIAGE 更偏 credit assignment，ReGRPO 更偏 failure recovery / reflective correction。

#2.2 Which Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index

类别：Post-training RL / RLVR / Token-level Optimization
链接：https://arxiv.org/abs/2606.31575
来源：arXiv cs.AI
日期：2026-06-30
一句话核心贡献：提出 Relative Surprisal Index，用信息论指标选择 RLVR 中真正值得更新的 token，调和“高熵 token 有用”和“低概率 token 可能主导梯度”的矛盾。
判断：对基础模型后训练机制有参考价值，可用于理解 RLVR 的有效梯度到底来自哪些 token。

#2.3 ACE: Pluggable Adaptive Context Elasticizer across Agents

类别：LLM Agent / Context Compression / Memory
链接：https://arxiv.org/abs/2606.31564
来源：arXiv cs.AI
日期：2026-06-30
一句话核心贡献：提出可插拔上下文弹性模块，为历史步骤同时保存 raw message 和 compressed abstraction，并在每个决策步动态选择 raw / abstract / drop。
判断：和 ECHO 一起看。ACE 更强调可逆、按需恢复；ECHO 更强调 RL 学习时可追溯。

#2.4 SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions

类别：Code Agent / Evaluation / Intent Understanding / Long-horizon Agent
链接：https://arxiv.org/abs/2606.30573
Repo：https://github.com/scaleapi/SWE-Interact
来源：arXiv；GitHub
日期：2026-06-29；GitHub repo 2026-07-01 仍在更新
一句话核心贡献：把 SWE 评测从“一次性给完整需求”改成多轮用户驱动工作流，由用户模拟器逐步透露需求、检查 workspace、提出修改。
判断：非常贴近“从指令理解走向意图理解”。代码 Agent 未来不应只会补 patch，还要会澄清需求、维护上下文、适应约束变化。

#2.5 Dockerless: Environment-Free Program Verifier for Coding Agents

类别：Code Agent / Verifier / RL Reward / Systems
链接：https://arxiv.org/abs/2606.28436
来源：arXiv；Hugging Face Papers
日期：2026-06-26
一句话核心贡献：提出无需 Docker / 单仓环境执行的 agentic patch verifier，通过仓库探索收集证据来判断补丁正确性，并可作为 SFT 过滤器和 RL reward。
判断：如果成立，这对 code agent RL 很重要：它把环境构建成本从 reward loop 中部分拿掉，使大规模代码轨迹筛选更便宜。

#2.6 Learning from Failure: Inference-Time Self-Improvement for Computer-Use Agents

类别：Computer-use Agent / Self-improvement / Failure Learning
链接：https://arxiv.org/abs/2606.31270
来源：arXiv cs.CL
日期：2026-06-30
一句话核心贡献：不再丢弃失败轨迹，而是用 LLM 诊断失败模式、提出 inference-time 解决方案并生成轻量 verified code patches 来升级 agent。
判断：和 ReGRPO 的 failure-driven 思路一致；区别是这里更像数据/系统层自改进，而不是直接训练 policy。

#2.7 SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History

类别：LLM Agent / Continual Learning / Skill Memory
链接：https://arxiv.org/abs/2606.08671
来源：arXiv；Hugging Face Papers
日期：2026-06-07；v2 revised 2026-06-23，近两日 HF Papers 仍在推荐
一句话核心贡献：用 persistent decision history 记录技能修订、诊断、证据和结果，使后续 agent 能跨 session 继续演化技能而不是只保留最终 artifact。
判断：对 self-evolving agent 很有启发：保留“为什么这样改”的历史，可能比只保留技能文本更重要。

#2.8 Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

类别：LLM Agent / Procedural Memory / Evaluation
链接：https://arxiv.org/abs/2606.23127
来源：arXiv；Hugging Face Papers
日期：2026-06-22，近两日 HF Papers 推荐
一句话核心贡献：提出 AFTER benchmark，评估 procedural memory 在企业任务中的本地改进、跨任务迁移、跨角色迁移和跨模型泛化。
判断：适合和 SkillHone、Generative Skill Composition 组成“Agent 技能记忆”小专题。

#2.9 Generative Skill Composition for LLM Agents

类别：LLM Agent / Skill Library / Planning
链接：https://arxiv.org/abs/2606.32025
来源：arXiv cs.CL
日期：2026-06-30
一句话核心贡献：把技能选择视为结构化生成问题：决定选哪些技能、选几个、以什么顺序组合，而不是简单 embedding retrieval 或把全技能库暴露给模型。
判断：这与长期 Agent 的“程序化技能库”有关，可作为 procedural memory 的上层 planner。

#2.10 Delta-JEPA: Learning Action-Sensitive World Models via Latent Difference Decoding

类别：Model-based RL / Latent World Model
链接：https://arxiv.org/abs/2606.31232
来源：arXiv cs.AI
日期：2026-06-30
一句话核心贡献：通过 Latent Difference Action Decoder 从相邻 latent displacement 重构动作，避免 joint-embedding world model 学到 action-insensitive 表征。
判断：对 Dreamer/JEPA 类 world model 有参考意义：world latent 不仅要预测未来，还要保留动作可区分性。

#2.11 Orca: The World is in Your Mind

类别：World Foundation Model / Multimodal Latent Space / Pretraining Data
链接：https://arxiv.org/abs/2606.30534
来源：arXiv；Hugging Face Papers
日期：2026-06-29；v2 revised 2026-06-30
一句话核心贡献：提出通用 world foundation model 的初始实例，用 125K 小时视频和 160M event annotations 学统一 world latent space，并通过 next-state prediction 建模世界状态转移。
判断：宏大但值得扫读，重点看数据构造、latent readout 和是否真的支持 planning / action，而不是被标题带偏。

#2.12 Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

类别：Self-evolving Agent / Optimization / Post-training
链接：https://arxiv.org/abs/2606.29082
来源：arXiv；Hugging Face Papers
日期：2026-06-27
一句话核心贡献：把进化式搜索中的“如何变异、何时回退、如何迭代改进”蒸馏进模型，使模型能跨 371 个优化任务复用发现能力。
判断：适合连接 self-evolving code agent：让模型学会“搜索策略”而不只是依赖外部 scaffold。

#2.13 MOPD: Multi-Teacher On-Policy Distillation for Capability Integration in LLM Post-Training

类别：Post-training RL / Distillation / Capability Integration
链接：https://arxiv.org/abs/2606.30406
来源：arXiv；Hugging Face Papers
日期：2026-06-29
一句话核心贡献：先训练多个领域 RL teacher，再在 student 自己的 rollout 上做 on-policy distillation，以整合多能力并缓解 off-policy 暴露偏差。
判断：对高效后训练和能力合并很相关；也可借鉴到多技能 Agent teacher 的集成。

#2.14 LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents

类别：Computer-use Agent / Tool-use / Systems
链接：https://arxiv.org/abs/2606.30697
来源：arXiv；Hugging Face Papers
日期：2026-06-29
一句话核心贡献：在 OS 与 AI agent 之间加入语义交互层，把 accessibility metadata 和 browser UI 结构转成稳定 ID、角色、名称、值和动作空间，降低 screenshot/OCR/坐标操作成本。
判断：对环境设计催生 Agent 能力很重要：与其让 Agent 猜像素，不如设计机器可读的环境接口。

#2.15 Xiaomi-GUI-0 Technical Report

类别：GUI Agent / Real-device Evaluation / Tool-use
链接：https://arxiv.org/abs/2606.31410
来源：arXiv；Hugging Face Papers
日期：2026-06-30
一句话核心贡献：面向真实移动设备闭环训练与评测 GUI agent，强调真实 app 中账号状态、权限弹窗、支付认证、风控等异常分布与离线 benchmark 的差距。
判断：如果你关注 Agent 环境设计，这篇提供现实部署视角：benchmark 高分不等于真实可用。

#2.16 CoCoMUT: A Tool for Code-Context Mining and Automated Dataset Generation

类别：Code Intelligence / Pretraining Data / Dataset Construction
链接：https://arxiv.org/abs/2606.31971
来源：arXiv cs.SE
日期：2026-06-30
一句话核心贡献：为 Java 项目自动抽取方法级上下文，包括类信息、文档、调用者/被调用者、类型层级、构建和 classpath 元数据，用于可复现代码上下文数据集生成。
判断：对代码数据质量很实用：代码模型不应只看孤立函数，repository-level context 需要系统化抽取。

#2.17 Towards Knowledge Alignment in Code LLMs: Contrastive Unlearning for Evolving APIs

类别：Code Intelligence / Continual Learning / Model Editing
链接：https://arxiv.org/abs/2606.30810
来源：arXiv cs.SE
日期：2026-06-29
一句话核心贡献：提出 CURE，用 contrastive unlearning 同时抑制 deprecated API 并显式推动模型生成正确替代 API。
判断：适合关注代码模型持续学习：软件库 API 演化是代码 LLM 知识陈旧的典型场景。

#2.18 Falsification, Not Exposure: ... Self-Repair Feedback in Frozen Small Code Models

类别：Code Agent / Self-repair / Evaluation Methodology
链接：https://arxiv.org/abs/2606.31511
来源：arXiv cs.CL / cs.SE
日期：2026-06-30
一句话核心贡献：用 placebo-controlled、matched-budget 的实验设计分解 self-repair feedback 的有效成分，强调可执行反例/测试反馈而不是简单重新暴露失败代码。
判断：不是新算法，但对“代码 Agent 为什么能自修复”的因果测量有参考价值。

#2.19 ScratchWorld: Evaluating If World Models Compute Executable Consequences

类别：World Model / Evaluation / Code-like Environment
链接：https://arxiv.org/abs/2606.31689
来源：arXiv cs.SE
日期：2026-06-30
一句话核心贡献：评估 world model 是否能计算可执行后果，而不是只做表面预测。
判断：可与 model-based Agent 结合：world model 的关键不是“像不像”，而是能否支持行动后果推演。

#2.20 Governance Gaps in Agent Interoperability Protocols: What MCP, A2A, and ACP Cannot Express

类别：Agent Systems / Tool-use / Governance
链接：https://arxiv.org/abs/2606.31498
来源：arXiv cs.SE
日期：2026-06-30
一句话核心贡献：分析 MCP、A2A、ACP、ANP、ERC-8004 等 agent 协议在成员资格、审议、投票、异议保留、人类升级、审计回放等治理维度的表达缺口。
判断：如果未来做多 Agent 系统，这篇提醒：互操作协议不等于治理协议。

#3. 今日最值得精读的 3 篇

QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

链接：https://arxiv.org/abs/2606.32034

精读理由：直接命中长轨迹 Agent dense reward / process supervision 的评测问题，是做 Agent RL 前需要的“奖励信号筛选器”。

TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

链接：https://arxiv.org/abs/2606.32017

精读理由：把最终 outcome reward 修正为 role-conditioned segment reward，给长轨迹 credit assignment 一个清晰可实现的框架。

Bridging the Gap Between Latent and Explicit Reasoning with Looped Transformers

链接：https://arxiv.org/abs/2606.31779

精读理由：潜空间推理今天最相关的一篇。它提出 latent CoT 不只需要“隐藏状态推理”，还需要 recurrent-depth 计算结构和逐 latent 监督。

备选第四篇：ECHO（https://arxiv.org/abs/2606.31650）。如果今天主要想沿 Agent RL 线推进，ECHO 应该和 QVal/TRIAGE 一起看。

#4. 今日最值得跟进的 3 个 repo / model / dataset

scaleapi/SWE-Interact

- 链接：https://github.com/scaleapi/SWE-Interact

- 类型：Code Agent benchmark / interactive SWE tasks

- 跟进理由：把代码 Agent 评测从单轮完整需求推进到多轮用户驱动需求澄清，贴近“意图理解”和真实工程工作流。

Togetherbench/SWE-Together

- 链接：https://github.com/Togetherbench/SWE-Together

- 类型：Interactive coding agent evaluation

- 跟进理由：GitHub 搜索显示与 SWE-Interact 同期活跃，描述为 evaluating coding agents in interactive user sessions，可作为交互式 SWE 评测生态的另一个观察点。

Hugging Face Papers 今日 Agent/RL 热门集合

- 链接：https://huggingface.co/papers

- 类型：paper discovery hub

- 跟进理由：今日页面集中出现 QVal、TRIAGE、SWE-Interact、SkillHone、Dockerless、Orca、MOPD 等条目，是跟踪社区关注度的快速入口。

补充：GitHub 新建仓库搜索中，context-forge（https://github.com/eatakishiyev/context-forge）描述为 context compiler for LLM agents，但星数很低、工程成熟度未知，只建议轻量观察，不作为主要技术依据。

#5. 研究机会 / idea

#Idea 1：把 QVal + TRIAGE + ECHO 合成一个“可追溯的长轨迹 Agent RL”框架

现在三篇分别解决：

QVal：如何评估 dense supervision 是否和 Q-value 对齐；
TRIAGE：如何按语义角色分配 segment-level credit；
ECHO：如何在压缩上下文后仍保留可追溯证据用于学习。

一个自然研究问题是：能否训练一个 trace-aware context compressor，使它不仅提升 inference 成功率，还最大化后续 reward attribution 的可识别性？

具体做法可以是：

用 ECHO/ACE 式结构保存 raw + summary + source index；
用 TRIAGE 标注 segment role；
用 QVal 评估不同压缩/角色标注策略的 Q-alignment；
最后再进入 GRPO/RLVR。

这会把“上下文压缩”和“credit assignment”从两个独立模块变成联合优化目标。

#Idea 2：LLM Agent Dreamer 的 test-time adaptive world model

AdaJEPA 的启发是：world model 不应测试时冻结，而应在 MPC 闭环中用新 transition 自监督更新。对应到 LLM Agent：

state：任务上下文、工具观测、文件系统/网页状态；
action：搜索、读文件、编辑、执行命令、调用工具；
transition：action 后的 observation；
world model：预测下一步 observation / verifier progress / latent task state。

研究问题：在长轨迹 Agent 中，能否用少量在线 transition 对 world model 或 belief model 做快速适配，从而改善后续规划？

这比纯 policy RL 更接近 model-based RL，也能连接 latent-space reasoning：belief update 可以在 latent 中完成，只在必要时解码为自然语言计划。

#Idea 3：代码 Agent 的“无环境 verifier + 交互式需求模拟器”联合训练

Dockerless 降低了代码 RL reward 的环境执行成本，SWE-Interact 提供了多轮需求澄清场景。可以组合出一个新方向：

不再只训练 agent 在已知 issue 上一次性修 patch，而是训练它在“需求不完整 + verifier 便宜但不完美”的环境中主动提问、探索仓库、提交补丁并根据 verifier 反馈修正。

关键问题：

Dockerless verifier 的误判如何影响 RL？
Agent 什么时候应该问用户，什么时候应该自己探索？
多轮交互里的用户反馈能否作为 process reward，而不是只看最终 test pass？

这条线非常贴近 code agentic RL / intent understanding。

#6. 快速阅读路线建议

如果今天只有 30 分钟：

先读 QVal abstract + method，看它怎么定义 Q-alignment；
再读 TRIAGE 的 role taxonomy 和 reward mapping；
最后扫 ECHO 的 memory/reconstruction 机制。

如果有 1-2 小时：

Agent RL 线：QVal → TRIAGE → ECHO → ReGRPO；
Latent/model-based 线：LOTUS → AdaJEPA → Delta-JEPA；
Code Agent 线：SWE-Interact → Dockerless → CoCoMUT/CURE。

今日判断：Agent RL 领域正在从“能不能用 RL 提升最终 benchmark”进入“轨迹中间结构怎么表示、压缩、评估、分配 credit”的阶段。 这正是长轨迹 LLM Agent 和 model-based Agent RL 可以切入的窗口。