#2026-07-02 AI/LLM 最新论文与研究热点简报
检索时间:2026-07-02 08:00 CST。主要覆盖 arXiv 2026-06-30 至 2026-07-01 的 cs.AI / cs.CL / cs.LG / cs.SE recent,Hugging Face Papers 当日/近两日热门条目,以及 GitHub / Hugging Face API 的可访问公开信息。X/Twitter 未作为主证据源使用:当前自动任务环境不稳定依赖登录态,故用 arXiv、HF、GitHub 作为可验证替代来源。
#0. 今日总览:Agent RL 开始从“终局奖励”转向“轨迹结构化学习”
过去 24-48 小时最密集的新内容集中在四条线:
- 长轨迹 LLM Agent RL 的 credit assignment / dense supervision:QVal、TRIAGE、ReGRPO、ECHO 都在处理同一个核心问题——长轨迹里“哪一步真正有用”不能再用最终成败粗暴广播到所有 token。
- 潜空间 / world model / latent reasoning:LOTUS、AdaJEPA、Delta-JEPA、Orca 指向一个趋势:把推理或环境动态压进连续 latent,再在 latent 中循环、规划、适配。
- 代码 Agent 评测与训练基础设施:SWE-Interact、Dockerless、CoCoMUT、CURE 等把焦点从单轮补丁生成推进到交互式需求澄清、无 Docker verifier、上下文挖掘、API 知识更新。
- Agent memory / skill evolution / context compression:ACE、SkillHone、procedural memory、Generative Skill Composition、LUMOS 说明“外部记忆、技能库、语义 OS 层”正在成为 Agent 可扩展性的基础设施。
对 wenjun 当前方向而言,今天最值得优先看的是:QVal + TRIAGE + ECHO 这一组,它们几乎直接服务于长轨迹 Agent RL 的奖励建模、过程监督和上下文压缩问题;再加上 LOTUS / AdaJEPA 作为潜空间推理与 model-based RL 的方法参考。
#1. 重点论文 / 动态精读
#1.1 QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents
- 类别:LLM Agent / Post-training RL / Evaluation / Long-horizon Agent
- 链接:https://arxiv.org/abs/2606.32034
- 来源:arXiv cs.AI / cs.CL / cs.LG;Hugging Face Papers
- 日期:2026-06-30
- 一句话核心贡献:提出一个 training-free 的测试床,用 Q-alignment 直接评估长轨迹 LLM Agent 的 dense supervision signal 是否真的能判断中间 state-action 的价值,而不必每次都跑完整训练管线。
为什么值得关注:
长轨迹 Agent 的核心难题不是“有没有最终 reward”,而是中间几百上千步里,哪些搜索、点击、编辑、反思是推进任务,哪些只是噪声。现在很多 dense supervision 方法只能通过“接到训练 pipeline 后最终分数是否涨了”来比较,这会把监督质量和工程细节混在一起。QVal 的价值在于:把 dense reward / process supervision 本身拿出来做可比评测。
与 wenjun 研究方向的关系:
如果你要做 LLM Agent model-based RL 或长轨迹 RL,这篇可以作为“奖励模型/过程监督评测协议”的基础参考。尤其适合回答:
- 一个 learned critic / self-evaluation / embedding similarity signal 是否真的和未来回报相关?
- 在不大规模 RL 的情况下,如何快速筛选 dense reward 设计?
- 长轨迹 Agent 的 step-level advantage 能否先离线评估再训练?
#1.2 TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning
- 类别:LLM Agent / Agentic RL / Credit Assignment / Post-training RL
- 链接:https://arxiv.org/abs/2606.32017
- 来源:arXiv cs.AI / cs.LG;Hugging Face Papers
- 日期:2026-06-30
- 一句话核心贡献:把 Agent 轨迹片段按语义角色分为 decisive progress、useful exploration、no-progress infrastructure、regression,再把最终 verifier outcome 修正为 segment-level process rewards。
为什么值得关注:
标准 GRPO/RLVR 常把最终 verifier 的 outcome advantage 均匀施加到所有动作 token 上。对 Agent 来说这会产生两个明显问题:
- 失败轨迹中的有用探索被惩罚;
- 成功轨迹中的冗余、倒退动作被奖励。
TRIAGE 的核心是给 credit assignment 增加一个“语义角色轴”:不是每个成功轨迹里的动作都同等好,也不是每个失败轨迹里的动作都同等坏。
与 wenjun 研究方向的关系:
这篇非常贴近长轨迹 Agent RL。它可以和你的 model-based / latent-state grouping 想法结合:先把轨迹切成 latent subgoal / role segment,再对不同 segment 分配不同 advantage。一个自然扩展是:不只用 judge 标注 role,而是训练一个可泛化的 latent role classifier,用于跨任务 credit assignment。
#1.3 ECHO: Prune to act, trace to learn with selective turn memory in agentic RL
- 类别:LLM Agent / Context Compression / Agentic RL / Memory
- 链接:https://arxiv.org/abs/2606.31650
- 来源:arXiv cs.LG
- 日期:2026-06-30
- 一句话核心贡献:提出 selective turn-memory 框架,把长轨迹历史压缩为可用于行动的 compact memory,同时保留 source-indexed reconstruction 以便 RL 时追溯哪些原始证据支撑了成功。
为什么值得关注:
长轨迹 Agent 面临两个耦合问题:
- 上下文窗口不够,必须压缩/裁剪历史;
- 一旦历史被压缩,RL 更新时就难以知道最终成功到底依赖了哪些原始观察。
ECHO 试图同时解决“行动时少看”和“学习时可追溯”:执行时用压缩 memory 降低上下文成本,训练时通过源索引重建让 reward 能回流到原始证据。
与 wenjun 研究方向的关系:
这和“通用上下文压缩器”“长轨迹 RL”“agent 预训练数据如何塑造能力”高度相关。可考虑把 ECHO 的 traceable compression 与 QVal/TRIAGE 结合:压缩器不仅服务 inference,还要最大化后续 credit assignment 的可识别性。
#1.4 Bridging the Gap Between Latent and Explicit Reasoning with Looped Transformers
- 类别:Latent Reasoning / Reasoning Model / Architecture
- 链接:https://arxiv.org/abs/2606.31779
- 来源:arXiv cs.CL / cs.LG
- 日期:2026-06-30
- 一句话核心贡献:提出 LOTUS,用 looped/recurrent-depth Transformer 在 latent blocks 上迭代计算,并用类似显式 CoT 的逐 latent 位置监督来缩小 latent CoT 与 explicit CoT 的性能差距。
为什么值得关注:
latent CoT 的承诺是减少 token 级推理开销,但已有方法在模型规模超过 1B 后往往落后 explicit CoT。LOTUS 的关键判断是:latent reasoning 需要“可重复使用的深度计算”,而 looped Transformer 正好可以在不增加参数的情况下增加计算深度。
与 wenjun 研究方向的关系:
这篇是潜空间推理方向的直接参考。对 Agent 方向,一个有趣问题是:Agent 的中间 belief state / plan state 是否也可以用 latent loop 来更新,而不是每步都显式写自然语言 reflection?这可能连接到更高效的 long-horizon planning。
#1.5 AdaJEPA: An Adaptive Latent World Model
- 类别:Model-based RL / Latent World Model / Test-time Adaptation
- 链接:https://arxiv.org/abs/2606.32026
- 来源:arXiv cs.AI / cs.LG
- 日期:2026-06-30
- 一句话核心贡献:提出在 MPC 闭环中对 JEPA 类 latent world model 做 test-time adaptation:执行一个 action chunk 后用观测到的 transition 自监督更新 world model,再重新规划。
为什么值得关注:
传统 latent world model 在测试时通常冻结;一旦分布偏移或模型预测不准,规划会持续错下去。AdaJEPA 把“执行—观察—自监督更新—再规划”放进闭环,使 world model 在部署时持续校准。
与 wenjun 研究方向的关系:
如果把 LLM Agent 的环境状态看作文本/工具观测 latent,AdaJEPA 提供了一个类比:Agent 的 world model 不应只是离线学出的预测器,而应该在每条任务轨迹中用新 observation 做快速适配。可进一步思考“LLM Agent Dreamer”里是否需要 test-time world model adaptation。
#2. 其他值得扫读的新论文 / 动态
#2.1 ReGRPO: Reflection-Augmented Policy Optimization for Tool-Using Agents
- 类别:Tool-use / Agentic RL / Multimodal Agent
- 链接:https://arxiv.org/abs/2606.31392
- 来源:arXiv cs.AI
- 日期:2026-06-30
- 一句话核心贡献:通过 near-miss 工具调用收集 grounded failure observations,构造 Reflection-of-Thought 三元组并在 GRPO 中联合优化反思 token 和纠错动作。
- 判断:适合和 TRIAGE 对比。TRIAGE 更偏 credit assignment,ReGRPO 更偏 failure recovery / reflective correction。
#2.2 Which Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index
- 类别:Post-training RL / RLVR / Token-level Optimization
- 链接:https://arxiv.org/abs/2606.31575
- 来源:arXiv cs.AI
- 日期:2026-06-30
- 一句话核心贡献:提出 Relative Surprisal Index,用信息论指标选择 RLVR 中真正值得更新的 token,调和“高熵 token 有用”和“低概率 token 可能主导梯度”的矛盾。
- 判断:对基础模型后训练机制有参考价值,可用于理解 RLVR 的有效梯度到底来自哪些 token。
#2.3 ACE: Pluggable Adaptive Context Elasticizer across Agents
- 类别:LLM Agent / Context Compression / Memory
- 链接:https://arxiv.org/abs/2606.31564
- 来源:arXiv cs.AI
- 日期:2026-06-30
- 一句话核心贡献:提出可插拔上下文弹性模块,为历史步骤同时保存 raw message 和 compressed abstraction,并在每个决策步动态选择 raw / abstract / drop。
- 判断:和 ECHO 一起看。ACE 更强调可逆、按需恢复;ECHO 更强调 RL 学习时可追溯。
#2.4 SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions
- 类别:Code Agent / Evaluation / Intent Understanding / Long-horizon Agent
- 链接:https://arxiv.org/abs/2606.30573
- Repo:https://github.com/scaleapi/SWE-Interact
- 来源:arXiv;GitHub
- 日期:2026-06-29;GitHub repo 2026-07-01 仍在更新
- 一句话核心贡献:把 SWE 评测从“一次性给完整需求”改成多轮用户驱动工作流,由用户模拟器逐步透露需求、检查 workspace、提出修改。
- 判断:非常贴近“从指令理解走向意图理解”。代码 Agent 未来不应只会补 patch,还要会澄清需求、维护上下文、适应约束变化。
#2.5 Dockerless: Environment-Free Program Verifier for Coding Agents
- 类别:Code Agent / Verifier / RL Reward / Systems
- 链接:https://arxiv.org/abs/2606.28436
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-26
- 一句话核心贡献:提出无需 Docker / 单仓环境执行的 agentic patch verifier,通过仓库探索收集证据来判断补丁正确性,并可作为 SFT 过滤器和 RL reward。
- 判断:如果成立,这对 code agent RL 很重要:它把环境构建成本从 reward loop 中部分拿掉,使大规模代码轨迹筛选更便宜。
#2.6 Learning from Failure: Inference-Time Self-Improvement for Computer-Use Agents
- 类别:Computer-use Agent / Self-improvement / Failure Learning
- 链接:https://arxiv.org/abs/2606.31270
- 来源:arXiv cs.CL
- 日期:2026-06-30
- 一句话核心贡献:不再丢弃失败轨迹,而是用 LLM 诊断失败模式、提出 inference-time 解决方案并生成轻量 verified code patches 来升级 agent。
- 判断:和 ReGRPO 的 failure-driven 思路一致;区别是这里更像数据/系统层自改进,而不是直接训练 policy。
#2.7 SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History
- 类别:LLM Agent / Continual Learning / Skill Memory
- 链接:https://arxiv.org/abs/2606.08671
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-07;v2 revised 2026-06-23,近两日 HF Papers 仍在推荐
- 一句话核心贡献:用 persistent decision history 记录技能修订、诊断、证据和结果,使后续 agent 能跨 session 继续演化技能而不是只保留最终 artifact。
- 判断:对 self-evolving agent 很有启发:保留“为什么这样改”的历史,可能比只保留技能文本更重要。
#2.8 Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
- 类别:LLM Agent / Procedural Memory / Evaluation
- 链接:https://arxiv.org/abs/2606.23127
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-22,近两日 HF Papers 推荐
- 一句话核心贡献:提出 AFTER benchmark,评估 procedural memory 在企业任务中的本地改进、跨任务迁移、跨角色迁移和跨模型泛化。
- 判断:适合和 SkillHone、Generative Skill Composition 组成“Agent 技能记忆”小专题。
#2.9 Generative Skill Composition for LLM Agents
- 类别:LLM Agent / Skill Library / Planning
- 链接:https://arxiv.org/abs/2606.32025
- 来源:arXiv cs.CL
- 日期:2026-06-30
- 一句话核心贡献:把技能选择视为结构化生成问题:决定选哪些技能、选几个、以什么顺序组合,而不是简单 embedding retrieval 或把全技能库暴露给模型。
- 判断:这与长期 Agent 的“程序化技能库”有关,可作为 procedural memory 的上层 planner。
#2.10 Delta-JEPA: Learning Action-Sensitive World Models via Latent Difference Decoding
- 类别:Model-based RL / Latent World Model
- 链接:https://arxiv.org/abs/2606.31232
- 来源:arXiv cs.AI
- 日期:2026-06-30
- 一句话核心贡献:通过 Latent Difference Action Decoder 从相邻 latent displacement 重构动作,避免 joint-embedding world model 学到 action-insensitive 表征。
- 判断:对 Dreamer/JEPA 类 world model 有参考意义:world latent 不仅要预测未来,还要保留动作可区分性。
#2.11 Orca: The World is in Your Mind
- 类别:World Foundation Model / Multimodal Latent Space / Pretraining Data
- 链接:https://arxiv.org/abs/2606.30534
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-29;v2 revised 2026-06-30
- 一句话核心贡献:提出通用 world foundation model 的初始实例,用 125K 小时视频和 160M event annotations 学统一 world latent space,并通过 next-state prediction 建模世界状态转移。
- 判断:宏大但值得扫读,重点看数据构造、latent readout 和是否真的支持 planning / action,而不是被标题带偏。
#2.12 Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks
- 类别:Self-evolving Agent / Optimization / Post-training
- 链接:https://arxiv.org/abs/2606.29082
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-27
- 一句话核心贡献:把进化式搜索中的“如何变异、何时回退、如何迭代改进”蒸馏进模型,使模型能跨 371 个优化任务复用发现能力。
- 判断:适合连接 self-evolving code agent:让模型学会“搜索策略”而不只是依赖外部 scaffold。
#2.13 MOPD: Multi-Teacher On-Policy Distillation for Capability Integration in LLM Post-Training
- 类别:Post-training RL / Distillation / Capability Integration
- 链接:https://arxiv.org/abs/2606.30406
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-29
- 一句话核心贡献:先训练多个领域 RL teacher,再在 student 自己的 rollout 上做 on-policy distillation,以整合多能力并缓解 off-policy 暴露偏差。
- 判断:对高效后训练和能力合并很相关;也可借鉴到多技能 Agent teacher 的集成。
#2.14 LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents
- 类别:Computer-use Agent / Tool-use / Systems
- 链接:https://arxiv.org/abs/2606.30697
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-29
- 一句话核心贡献:在 OS 与 AI agent 之间加入语义交互层,把 accessibility metadata 和 browser UI 结构转成稳定 ID、角色、名称、值和动作空间,降低 screenshot/OCR/坐标操作成本。
- 判断:对环境设计催生 Agent 能力很重要:与其让 Agent 猜像素,不如设计机器可读的环境接口。
#2.15 Xiaomi-GUI-0 Technical Report
- 类别:GUI Agent / Real-device Evaluation / Tool-use
- 链接:https://arxiv.org/abs/2606.31410
- 来源:arXiv;Hugging Face Papers
- 日期:2026-06-30
- 一句话核心贡献:面向真实移动设备闭环训练与评测 GUI agent,强调真实 app 中账号状态、权限弹窗、支付认证、风控等异常分布与离线 benchmark 的差距。
- 判断:如果你关注 Agent 环境设计,这篇提供现实部署视角:benchmark 高分不等于真实可用。
#2.16 CoCoMUT: A Tool for Code-Context Mining and Automated Dataset Generation
- 类别:Code Intelligence / Pretraining Data / Dataset Construction
- 链接:https://arxiv.org/abs/2606.31971
- 来源:arXiv cs.SE
- 日期:2026-06-30
- 一句话核心贡献:为 Java 项目自动抽取方法级上下文,包括类信息、文档、调用者/被调用者、类型层级、构建和 classpath 元数据,用于可复现代码上下文数据集生成。
- 判断:对代码数据质量很实用:代码模型不应只看孤立函数,repository-level context 需要系统化抽取。
#2.17 Towards Knowledge Alignment in Code LLMs: Contrastive Unlearning for Evolving APIs
- 类别:Code Intelligence / Continual Learning / Model Editing
- 链接:https://arxiv.org/abs/2606.30810
- 来源:arXiv cs.SE
- 日期:2026-06-29
- 一句话核心贡献:提出 CURE,用 contrastive unlearning 同时抑制 deprecated API 并显式推动模型生成正确替代 API。
- 判断:适合关注代码模型持续学习:软件库 API 演化是代码 LLM 知识陈旧的典型场景。
#2.18 Falsification, Not Exposure: ... Self-Repair Feedback in Frozen Small Code Models
- 类别:Code Agent / Self-repair / Evaluation Methodology
- 链接:https://arxiv.org/abs/2606.31511
- 来源:arXiv cs.CL / cs.SE
- 日期:2026-06-30
- 一句话核心贡献:用 placebo-controlled、matched-budget 的实验设计分解 self-repair feedback 的有效成分,强调可执行反例/测试反馈而不是简单重新暴露失败代码。
- 判断:不是新算法,但对“代码 Agent 为什么能自修复”的因果测量有参考价值。
#2.19 ScratchWorld: Evaluating If World Models Compute Executable Consequences
- 类别:World Model / Evaluation / Code-like Environment
- 链接:https://arxiv.org/abs/2606.31689
- 来源:arXiv cs.SE
- 日期:2026-06-30
- 一句话核心贡献:评估 world model 是否能计算可执行后果,而不是只做表面预测。
- 判断:可与 model-based Agent 结合:world model 的关键不是“像不像”,而是能否支持行动后果推演。
#2.20 Governance Gaps in Agent Interoperability Protocols: What MCP, A2A, and ACP Cannot Express
- 类别:Agent Systems / Tool-use / Governance
- 链接:https://arxiv.org/abs/2606.31498
- 来源:arXiv cs.SE
- 日期:2026-06-30
- 一句话核心贡献:分析 MCP、A2A、ACP、ANP、ERC-8004 等 agent 协议在成员资格、审议、投票、异议保留、人类升级、审计回放等治理维度的表达缺口。
- 判断:如果未来做多 Agent 系统,这篇提醒:互操作协议不等于治理协议。
#3. 今日最值得精读的 3 篇
- QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents
链接:https://arxiv.org/abs/2606.32034
精读理由:直接命中长轨迹 Agent dense reward / process supervision 的评测问题,是做 Agent RL 前需要的“奖励信号筛选器”。
- TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning
链接:https://arxiv.org/abs/2606.32017
精读理由:把最终 outcome reward 修正为 role-conditioned segment reward,给长轨迹 credit assignment 一个清晰可实现的框架。
- Bridging the Gap Between Latent and Explicit Reasoning with Looped Transformers
链接:https://arxiv.org/abs/2606.31779
精读理由:潜空间推理今天最相关的一篇。它提出 latent CoT 不只需要“隐藏状态推理”,还需要 recurrent-depth 计算结构和逐 latent 监督。
备选第四篇:ECHO(https://arxiv.org/abs/2606.31650)。如果今天主要想沿 Agent RL 线推进,ECHO 应该和 QVal/TRIAGE 一起看。
#4. 今日最值得跟进的 3 个 repo / model / dataset
- scaleapi/SWE-Interact
- 链接:https://github.com/scaleapi/SWE-Interact
- 类型:Code Agent benchmark / interactive SWE tasks
- 跟进理由:把代码 Agent 评测从单轮完整需求推进到多轮用户驱动需求澄清,贴近“意图理解”和真实工程工作流。
- Togetherbench/SWE-Together
- 链接:https://github.com/Togetherbench/SWE-Together
- 类型:Interactive coding agent evaluation
- 跟进理由:GitHub 搜索显示与 SWE-Interact 同期活跃,描述为 evaluating coding agents in interactive user sessions,可作为交互式 SWE 评测生态的另一个观察点。
- Hugging Face Papers 今日 Agent/RL 热门集合
- 链接:https://huggingface.co/papers
- 类型:paper discovery hub
- 跟进理由:今日页面集中出现 QVal、TRIAGE、SWE-Interact、SkillHone、Dockerless、Orca、MOPD 等条目,是跟踪社区关注度的快速入口。
补充:GitHub 新建仓库搜索中,context-forge(https://github.com/eatakishiyev/context-forge)描述为 context compiler for LLM agents,但星数很低、工程成熟度未知,只建议轻量观察,不作为主要技术依据。
#5. 研究机会 / idea
#Idea 1:把 QVal + TRIAGE + ECHO 合成一个“可追溯的长轨迹 Agent RL”框架
现在三篇分别解决:
- QVal:如何评估 dense supervision 是否和 Q-value 对齐;
- TRIAGE:如何按语义角色分配 segment-level credit;
- ECHO:如何在压缩上下文后仍保留可追溯证据用于学习。
一个自然研究问题是:能否训练一个 trace-aware context compressor,使它不仅提升 inference 成功率,还最大化后续 reward attribution 的可识别性?
具体做法可以是:
- 用 ECHO/ACE 式结构保存 raw + summary + source index;
- 用 TRIAGE 标注 segment role;
- 用 QVal 评估不同压缩/角色标注策略的 Q-alignment;
- 最后再进入 GRPO/RLVR。
这会把“上下文压缩”和“credit assignment”从两个独立模块变成联合优化目标。
#Idea 2:LLM Agent Dreamer 的 test-time adaptive world model
AdaJEPA 的启发是:world model 不应测试时冻结,而应在 MPC 闭环中用新 transition 自监督更新。对应到 LLM Agent:
- state:任务上下文、工具观测、文件系统/网页状态;
- action:搜索、读文件、编辑、执行命令、调用工具;
- transition:action 后的 observation;
- world model:预测下一步 observation / verifier progress / latent task state。
研究问题:在长轨迹 Agent 中,能否用少量在线 transition 对 world model 或 belief model 做快速适配,从而改善后续规划?
这比纯 policy RL 更接近 model-based RL,也能连接 latent-space reasoning:belief update 可以在 latent 中完成,只在必要时解码为自然语言计划。
#Idea 3:代码 Agent 的“无环境 verifier + 交互式需求模拟器”联合训练
Dockerless 降低了代码 RL reward 的环境执行成本,SWE-Interact 提供了多轮需求澄清场景。可以组合出一个新方向:
不再只训练 agent 在已知 issue 上一次性修 patch,而是训练它在“需求不完整 + verifier 便宜但不完美”的环境中主动提问、探索仓库、提交补丁并根据 verifier 反馈修正。
关键问题:
- Dockerless verifier 的误判如何影响 RL?
- Agent 什么时候应该问用户,什么时候应该自己探索?
- 多轮交互里的用户反馈能否作为 process reward,而不是只看最终 test pass?
这条线非常贴近 code agentic RL / intent understanding。
#6. 快速阅读路线建议
如果今天只有 30 分钟:
- 先读 QVal abstract + method,看它怎么定义 Q-alignment;
- 再读 TRIAGE 的 role taxonomy 和 reward mapping;
- 最后扫 ECHO 的 memory/reconstruction 机制。
如果有 1-2 小时:
- Agent RL 线:QVal → TRIAGE → ECHO → ReGRPO;
- Latent/model-based 线:LOTUS → AdaJEPA → Delta-JEPA;
- Code Agent 线:SWE-Interact → Dockerless → CoCoMUT/CURE。
今日判断:Agent RL 领域正在从“能不能用 RL 提升最终 benchmark”进入“轨迹中间结构怎么表示、压缩、评估、分配 credit”的阶段。 这正是长轨迹 LLM Agent 和 model-based Agent RL 可以切入的窗口。