#2026-05-02 AI/LLM 最新论文与研究热点简报

检索时间:2026-05-02 08:00(Asia/Shanghai)

覆盖范围:优先最近 24-48 小时;由于 2026-05-01/04-30 arXiv 与 Hugging Face Daily Papers 内容较多,主体聚焦 2026-04-30 至 2026-05-01,少量纳入 2026-04-29 的高相关论文。

检索来源:Hugging Face Papers、arXiv recent(cs.AI/cs.CL/cs.LG/cs.SE/stat.ML)、GitHub Search。X/Twitter 未作为主来源使用;本次以可验证的论文页、HF、GitHub API 返回结果为准。

#一句话总览

今天最值得关注的主线很清晰:Agent 研究正在从“prompt/workflow 工程”走向“可验证环境 + 长程仿真 + RL/反馈控制 + 自演化 harness/软件体”;同时,latent reasoning + RL 开始出现更直接的算法尝试,代码智能方向则继续向“可验证执行基础设施、记忆控制、结构化 edit format、测试驱动数据工程”收敛。


#重点推荐:最值得 wenjun 关注的 5 条

#1. Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

  • 链接:https://arxiv.org/abs/2604.27998
  • 来源:arXiv cs.LG/cs.CL
  • 日期:2026-05-01
  • 类别:Latent Reasoning / Post-training RL
  • 一句话核心贡献:将 GRPO 引入 latent reasoning,指出直接在连续潜空间中做 RL 会遇到 latent manifold 缺失、采样机制改变、概率密度建模等耦合瓶颈,并提出面向潜空间推理的稳定化框架。

为什么值得关注: 这篇非常贴合 wenjun 近期关注的“潜空间推理”。以往 latent reasoning 多停留在监督学习或压缩 CoT 的角度,而这篇直接讨论 RL in latent space 的不稳定性,相当于把 DeepSeek/GRPO 式 reasoning RL 的问题迁移到连续 latent 表示中。它的重要性不一定在最终方法是否最优,而在于它清楚提出了 latent reasoning 与 token-level RL 的机制差异。

与 wenjun 研究方向的关系: 如果想研究“agent 的内部 world state / latent thought / compressed belief state 如何通过 RL 学出来”,这篇可以作为算法层起点。尤其适合延伸到 model-based RL for LLM agents:让 agent 不只在文本 action 上学习,也在 latent state/action 上进行规划和 credit assignment。


#2. Rethinking Agentic Reinforcement Learning In Large Language Models

  • 链接:https://arxiv.org/abs/2604.27859
  • 来源:arXiv cs.AI
  • 日期:2026-05-01
  • 类别:LLM Agent / Post-training RL / Model-based RL
  • 一句话核心贡献:综述并重新定义 LLM 时代的 agentic RL,强调开放环境中的目标设定、长期规划、动态策略适应和交互式推理,而不是传统固定 reward、固定 episode 的 RL。

为什么值得关注: 它把“RL for LLM”从数学题、代码题上的 RLVR 扩展到更 agentic 的问题设定。对于 wenjun 关心的 Dreamer/model-based RL for LLM Agent,这类综述可以帮助建立问题空间:环境在哪里、状态如何表示、reward 如何可验证、trajectory 如何复用、长期信用分配如何做。

与 wenjun 研究方向的关系: 可以作为开题/related work 的入口,但需要批判性阅读:真正的研究空白不在“再综述 agentic RL”,而在构造可验证且可扩展的 agent 环境、学习可复用的世界模型/记忆模型,以及把 RL 信号从最终结果拆到计划、工具调用、状态更新等中间层。


#3. Synthetic Computers at Scale for Long-Horizon Productivity Simulation

  • 链接:https://arxiv.org/abs/2604.28181
  • Hugging Face Papers:https://huggingface.co/papers/2604.28181
  • 来源:arXiv cs.AI/cs.CL/cs.LG,HF Papers
  • 日期:2026-04-30 / HF 2026-05-01 页面收录
  • 类别:LLM Agent / Long-horizon Agent / Environment Design / Synthetic Data
  • 一句话核心贡献:提出大规模构造“合成电脑环境”的方法,包括真实感目录结构和文档/表格/幻灯片等内容,并在这些环境中生成长程办公生产力任务与仿真轨迹。

为什么值得关注: 这篇击中了 agent 训练中的核心瓶颈:缺少足够多、足够真实、又可控的长程环境。相比只生成 instruction-response,这类“电脑环境 + 用户上下文 + 多交付物任务”的合成数据更接近未来 computer-use agent 的训练需求。

与 wenjun 研究方向的关系: 它与“通过环境设计催生自演化智能”高度相关。一个直接研究机会是:能否把 synthetic computer 进一步做成 model-based RL world model 的训练场,让 agent 学会预测文件系统状态变化、用户目标演化、工具调用后果,而不仅是模仿轨迹。


#4. When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

  • 链接:https://arxiv.org/abs/2604.27003
  • 来源:arXiv cs.LG/cs.AI
  • 日期:2026-05-01
  • 类别:LLM Agent / Continual Learning / Memory
  • 一句话核心贡献:指出外部记忆并没有消除持续学习的稳定性-可塑性矛盾,而是把瓶颈从参数更新转移到有限上下文下的记忆检索竞争,并提出用于拆解经验表示和组织方式的 (k, v) 框架。

为什么值得关注: 当前很多 agent 系统默认“加 memory 就等于持续学习”。这篇提醒我们,真正的问题变成了:哪些经验值得存、如何组织、什么时候检索、检索结果如何不污染当前任务。对于长程 coding/debugging agent,这比简单 RAG 更关键。

与 wenjun 研究方向的关系: 非常适合连接“LLM 持续学习”和“代码 Agent 自演化”。可以进一步研究:memory controller 是否应该用 bandit/RL 学习;经验是否应该被压缩为 latent skill/state;不同任务分布下 memory interference 如何定量评估。


#5. ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

  • 链接:https://arxiv.org/abs/2604.27467
  • 来源:arXiv cs.SE/cs.CL
  • 日期:2026-05-01
  • 类别:Code Agent / Evaluation / RLVR / Systems
  • 一句话核心贡献:提出面向大规模代码训练与评测的高保真、高并发 sandbox/verification 系统,支持 special-judge 自动生成与管理、测试用例级并行执行、多节点协调和可复现实验套件。

为什么值得关注: 代码智能的 RLVR 上限不只取决于算法,也取决于 verification infrastructure。没有可扩展、高保真的执行反馈,agentic coding RL 很难真正放大。ScaleBox 代表了“训练系统/评测系统即研究基础设施”的趋势。

与 wenjun 研究方向的关系: 如果研究 self-evolving code agent 或 agentic RL for code,应该把 verifier/sandbox 视作核心组件,而非工程细节。一个很有价值的问题是:verification system 的 latency、false positive/negative、并发调度如何影响 RL 的 reward noise 和策略学习。


#其他高相关论文与动态

#6. Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

  • 链接:https://arxiv.org/abs/2604.28139
  • Hugging Face Papers:https://huggingface.co/papers/2604.28139
  • 来源:arXiv / HF Papers
  • 日期:2026-04-30 / HF 2026-05-01 页面收录
  • 类别:LLM Agent / Evaluation / Tool-use
  • 一句话核心贡献:提出 live agent benchmark,将可刷新需求信号与可复现时间戳快照分离,用于评估不断变化的真实工作流任务。
  • 判断:比静态 benchmark 更接近真实 agent 部署,但也会带来 reproducibility 与 leaderboard 稳定性问题。值得关注其任务构造、验证机制和 release snapshot 设计。

#7. Step-level Optimization for Efficient Computer-use Agents

  • 链接:https://arxiv.org/abs/2604.27151
  • Hugging Face Papers:https://huggingface.co/papers/2604.27151
  • 来源:arXiv / HF Papers
  • 日期:2026-04-29 / HF 2026-05-01 页面收录
  • 类别:LLM Agent / Computer-use Agent / Systems
  • 一句话核心贡献:针对 computer-use agent 长轨迹中每步都调用大模型的低效问题,提出按 step 难度/风险自适应分配计算资源。
  • 判断:与 test-time scaling 的 agent 版本很相关。未来 agent 不应只在 task 级别决定 compute,而应在 step/action/observation 层做动态预算控制。

#8. Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

  • 链接:https://arxiv.org/abs/2604.27233
  • 来源:arXiv cs.AI/cs.LG/cs.MA
  • 日期:2026-05-01
  • 类别:Tool-use / LLM Agent / Evaluation
  • 一句话核心贡献:把工具调用评估从 post-hoc 移到执行循环内,由 reviewer agent 在工具调用前评估和纠偏,实现 inference-time feedback。
  • 判断:这类方法处在“无需训练的运行时 RL/feedback control”和“多 agent 审查器”之间。值得进一步研究 reviewer 的校准、成本和对主 agent 探索能力的抑制。

#9. Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents

  • 链接:https://arxiv.org/abs/2604.27283
  • 来源:arXiv cs.CL/cs.AI/cs.LG
  • 日期:2026-05-01
  • 类别:Code Agent / Memory / Continual Learning
  • 一句话核心贡献:将 coding agent 的 issue-memory 使用建模为风险敏感 contextual bandit,允许 agent 选择不用记忆、注入 top resolution 或采用其他检索策略,避免表面相似导致错误记忆注入。
  • 判断:和第 4 条持续学习 memory paper 形成呼应:一个从理论/系统角度讨论 memory bottleneck,一个给 coding agent 的 retrieval controller 具体建模。

#10. Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

  • 链接:https://arxiv.org/abs/2604.25850
  • 来源:arXiv cs.CL/cs.SE
  • 日期:2026-04-29
  • 类别:Code Agent / Self-evolving Agent / Tool-use
  • 一句话核心贡献:提出自动演化 coding-agent harness 的闭环方法,通过 component observability、experience observability 和 outcome observability 从大量轨迹中定位可编辑 harness 组件并评估修改效果。
  • 判断:对“self-evolving code agent”非常关键。很多 agent 能力差异来自 harness,而非 base model;让 harness 可观测、可回滚、可学习,是 agent 自演化的一条务实路径。

#11. Self-Evolving Software Agents

  • 链接:https://arxiv.org/abs/2604.27264
  • 来源:arXiv cs.SE/cs.AI
  • 日期:2026-05-01
  • 类别:Self-evolving Agent / Code Agent
  • 一句话核心贡献:结合 BDI reasoning 与 LLM,使软件 agent 能从经验中自动发现新需求,并合成对应的目标、推理与可执行代码更新。
  • 判断:概念上很贴近“自演化软件体”,但需要重点检查实验环境是否足够复杂、代码更新是否真正安全可验证、是否只是 demo-level evolution。

#12. D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

  • 链接:https://arxiv.org/abs/2604.27977
  • 来源:arXiv cs.AI/cs.LG
  • 日期:2026-05-01
  • 类别:LLM Agent / Verifiable Environment / Scientific Discovery
  • 一句话核心贡献:构建面向科学数据驱动发现的可验证环境数据集,包含来自真实科学 repo 的任务、可执行环境、输入数据、参考代码和自动合成验证器。
  • 判断:它和 ScaleBox 一起说明:agent RL 的关键资源正在变成“可执行、可验证、可扩展的环境集合”。这比单纯 prompt benchmark 更有训练价值。

#13. ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

  • 链接:https://arxiv.org/abs/2604.27644
  • 来源:arXiv cs.LG/cs.AI/cs.PL
  • 日期:2026-05-01
  • 类别:Post-training RL / Self-play / Verifiable Reasoning
  • 一句话核心贡献:从“学习回答”转向“学习提问”,让统一策略交替作为 Proposer 合成可验证问题、作为 Solver 解题,并用反馈进行自改进。
  • 判断:与环境自生成、curriculum、自博弈相关。可关注其防止题目坍塌、难度控制和 verifier 可靠性的机制。

#14. Co-Evolving Policy Distillation

  • 链接:https://arxiv.org/abs/2604.27083
  • Hugging Face Papers:https://huggingface.co/papers/2604.27083
  • 来源:arXiv / HF Papers
  • 日期:2026-04-29 / HF 2026-05-01 页面收录
  • 类别:Post-training RL / RLVR / Distillation
  • 一句话核心贡献:分析 mixed RLVR 与先训专家再蒸馏的能力损失问题,提出在专家 RLVR 过程中并行引入 online policy distillation 的 CoPD。
  • 判断:对多能力 reasoning/code/math model 的 post-training 很相关;值得关注它如何缓解不同能力之间的 divergence cost。

#15. Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

  • 链接:https://arxiv.org/abs/2604.28005
  • 来源:arXiv cs.LG/stat.ML
  • 日期:2026-05-01
  • 类别:Post-training RL / Reasoning Model
  • 一句话核心贡献:提出 kernelized advantage estimation,试图在 PPO/A2C 的 value network 成本和 GRPO 大量采样成本之间取得折中。
  • 判断:如果成立,它可能改善 reasoning RL 的样本效率和显存/计算开销。建议重点看其估计偏差、复杂度和与 GRPO 的实验对比。

#16. RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses

  • 链接:https://arxiv.org/abs/2604.28056
  • 来源:arXiv cs.AI
  • 日期:2026-05-01
  • 类别:Model-based RL / Reward Design / Post-training RL
  • 一句话核心贡献:把 LLM 生成的 reward 视为 reward hypotheses,研究在不同 policy competence 和训练阶段何时验证、何时部署这些 reward。
  • 判断:对“LLM 生成 reward function”方向很重要。它提醒我们 reward 的有用性不是静态属性,而依赖当前 policy 阶段。

#17. Static Program Slicing Using Language Models With Dataflow-Aware Pretraining and Constrained Decoding

  • 链接:https://arxiv.org/abs/2604.26961
  • 来源:arXiv cs.SE/cs.AI/cs.PL
  • 日期:2026-05-01
  • 类别:Code Intelligence / Pretraining Data / Constrained Decoding
  • 一句话核心贡献:提出 Sliceformer,将静态程序切片建模为 seq2seq 任务,并通过 dataflow-aware pretraining 与 constrained decoding 减少依赖建模错误和幻觉代码片段。
  • 判断:代码模型能力形成机制中,dataflow 预训练仍是关键。可作为“代码数据质量/结构信号如何塑造代码理解能力”的案例。

#18. To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

  • 链接:https://arxiv.org/abs/2604.27296
  • 来源:arXiv cs.SE/cs.CL
  • 日期:2026-05-01
  • 类别:Code Agent / Code Editing / Systems
  • 一句话核心贡献:系统分析传统 diff format 对 LLM 生成不友好的原因,并提出 BlockDiff、FuncDiff 等结构感知 edit format。
  • 判断:这说明代码 agent 的性能不只取决于模型,也取决于 action representation。对 agentic coding 来说,选择“怎样表达代码修改”就是 action space 设计。

#19. CoRE: A Fine-Grained Code Reasoning Benchmark Beyond Output Prediction

  • 链接:https://arxiv.org/abs/2604.25399
  • 来源:arXiv cs.SE
  • 日期:2026-04-29
  • 类别:Code Intelligence / Evaluation / Reasoning
  • 一句话核心贡献:提出评估代码推理的细粒度 benchmark,不只看最终输出,还看实现不变性和中间执行状态透明度。
  • 判断:适合用来诊断代码模型是否真的理解执行过程,而不是背模式。对训练 process-supervised code reasoner 有参考价值。

#20. Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

  • 链接:https://arxiv.org/abs/2604.24819
  • 来源:arXiv cs.SE/cs.AI
  • 日期:2026-04-29
  • 类别:Pretraining Data / Continual Learning / Evaluation
  • 一句话核心贡献:将数据工程生命周期类比软件开发生命周期,用结构化知识表示同时驱动训练数据和评测,从而诊断训练数据缺陷并进行 test-driven data engineering。
  • 判断:非常契合“预训练数据质量/代码数据质量/数据如何塑造能力”。相比盲目加数据,它强调用测试反馈定位数据缺口。

#21. Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

  • 链接:https://arxiv.org/abs/2604.27251
  • Hugging Face Papers:https://huggingface.co/papers/2604.27251
  • 来源:arXiv / HF Papers
  • 日期:2026-05-01
  • 类别:Reasoning Model / Controllability
  • 一句话核心贡献:通过 reasoning conflicts 研究 LLM 的归纳、演绎、溯因等推理模式是否能从具体问题实例中解耦并被控制。
  • 判断:对“推理能力是预训练中共享模式被 CoT 激活,还是可控 schema”这个问题有价值,可作为能力形成机制方向的参考。

#22. MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

  • 链接:https://arxiv.org/abs/2604.27819
  • 来源:arXiv cs.AI
  • 日期:2026-05-01
  • 类别:Tool-use / Agent Safety / MCP
  • 一句话核心贡献:提出多 MCP server agent 中跨边界数据传播的 controlled benchmark,用 canary taint tracking 检测 credential propagation。
  • 判断:MCP/工具生态越复杂,agent 的信息流控制越重要。这是 agent 安全从 prompt injection 走向系统权限拓扑分析的信号。

#23. Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

  • 链接:https://arxiv.org/abs/2604.27221
  • 来源:arXiv cs.AI
  • 日期:2026-05-01
  • 类别:LLM Agent / Web Agent / Information Extraction
  • 一句话核心贡献:提出双层 multi-agent web-to-table search 框架,上层 orchestrator 分解问题,下层 worker 并行处理实体/来源。
  • 判断:适合关注 agentic search 从“单问题深挖”到“大规模结构化聚合”的转变。对科研调研 agent、数据构建 agent 都有启发。

#GitHub / Repo / Model / Dataset 动态

说明:GitHub Search 以 created:>2026-04-25、关键词 LLM agentcode agentlatent reasoningRLVRMCP agent 等检索,并按 stars 排序。以下只列与 wenjun 方向可能相关者;新仓库质量需进一步审查。

#1. browser-use/bux

  • 链接:https://github.com/browser-use/bux
  • 来源:GitHub Search
  • 日期:创建于 2026-04-26
  • 类别:Code Agent / Browser Agent / Harness
  • 一句话核心贡献:一个 “24/7 Claude Code agent with Browser Harness”,强调在自有机器上运行长期 Claude Code/browser harness agent。
  • 跟进理由:与 agent harness、长期运行和本地执行环境相关,适合观察工程化 agent loop 如何设计。

#2. sandeco/reversa

  • 链接:https://github.com/sandeco/reversa
  • 来源:GitHub Search
  • 日期:创建于 2026-04-26
  • 类别:Code Agent / Software Engineering
  • 一句话核心贡献:面向 AI coding agents,将 legacy systems 转换为 executable specifications。
  • 跟进理由:如果该项目真的能把遗留系统转成可执行规格,它与“可验证 reward / 测试驱动代码 agent”高度相关。

#3. warpdot-dev/composio

  • 链接:https://github.com/warpdot-dev/composio
  • 来源:GitHub Search
  • 日期:创建于 2026-05-01
  • 类别:Tool-use / MCP / Agent Tools
  • 一句话核心贡献:面向 AI agents 的 TypeScript/Python SDK 与工具集成层,描述中包含 MCP、OAuth、OpenAI/Anthropic/LangChain/LlamaIndex 等多框架支持。
  • 跟进理由:工具层生态是 agent 能力的基础设施;但需检查是否为真正的新项目、fork/迁移或重建仓库。

#4. varandrew/moor

  • 链接:https://github.com/varandrew/moor
  • 来源:GitHub Search
  • 日期:创建于 2026-04-27
  • 类别:MCP / Tool-use / Agent Safety
  • 一句话核心贡献:本地 MCP control plane,为 coding agent 提供安全、可观测、可配置的 MCP server gateway。
  • 跟进理由:与 MCPHunt 的问题域相呼应。MCP 工具权限、观测和网关化可能成为 coding agent 安全的工程核心。

#5. 7zk1014/Latent_Reasoning_Baselines

  • 链接:https://github.com/7zk1014/Latent_Reasoning_Baselines
  • 来源:GitHub Search
  • 日期:创建于 2026-04-27
  • 类别:Latent Reasoning
  • 一句话核心贡献:latent reasoning baseline 仓库。
  • 跟进理由:stars 目前为 0,质量未知,但可作为潜空间推理实验复现线索。建议仅作为线索,不要直接信任。

#6. xi-xiaoran/coverage-rlvr

  • 链接:https://github.com/xi-xiaoran/coverage-rlvr
  • 来源:GitHub Search
  • 日期:创建于 2026-04-29
  • 类别:RLVR / Post-training RL
  • 一句话核心贡献:面向 finite-support coverage diagnostics 与 verifiable post-training experiments 的代码。
  • 跟进理由:RLVR 的覆盖诊断是一个被低估的问题:可验证 reward 只覆盖了有限任务支持集,模型如何泛化/过拟合值得研究。

#今日最值得精读的 3 篇

  1. Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

https://arxiv.org/abs/2604.27998

精读理由:直接命中 latent-space reasoning + RL,是 wenjun 近期重点方向中最相关的一篇。

  1. Synthetic Computers at Scale for Long-Horizon Productivity Simulation

https://arxiv.org/abs/2604.28181

精读理由:长程 agent 训练环境和合成数据的关键新方向,可连接 model-based RL/world model for agents。

  1. When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

https://arxiv.org/abs/2604.27003

精读理由:把 agent 持续学习问题从参数层转到 memory/retrieval 层,适合延展到 coding agent 经验复用和自演化。

备选第 4 篇:ScaleBox(如果今天想偏代码智能/RLVR infra);第 5 篇:Rethinking Agentic RL(如果想梳理大图)。


#今日最值得跟进的 3 个 repo/model/dataset

  1. browser-use/buxhttps://github.com/browser-use/bux

看点:长期运行 browser/coding harness agent,适合观察 agent loop 与执行环境工程。

  1. varandrew/moorhttps://github.com/varandrew/moor

看点:MCP control plane;与多工具、多 server agent 的权限、观测、信息流控制相关。

  1. xi-xiaoran/coverage-rlvrhttps://github.com/xi-xiaoran/coverage-rlvr

看点:RLVR coverage diagnostics;可能帮助分析 verifiable reward 的支持集覆盖与泛化问题。

如果要选论文配套方向,则优先找 Latent-GRPO / Synthetic Computers / ScaleBox / D3-Gym 的代码或数据是否放出。


#研究机会 / Idea

#Idea 1:把 latent reasoning 做成 agent 的可学习 belief/world state,而不只是 CoT 压缩

Latent-GRPO 说明 latent-space RL 已经开始被直接研究。但对 agent 来说,latent reasoning 更有价值的形态可能不是“把思维链压短”,而是一个可更新的 belief state / world model state

  • 输入:observation、tool result、memory retrieval;
  • latent state:压缩后的任务状态、环境状态、用户意图、失败模式;
  • action:文本回复、工具调用、代码修改、记忆写入;
  • reward:最终任务成功 + 中间 verifier + state prediction consistency。

可研究问题:GRPO/actor-critic 如何在 latent state/action 上稳定训练?latent state 是否能预测工具调用后果?是否能提高长程 agent 的 credit assignment?

#Idea 2:Agent 持续学习的核心不是“存更多 memory”,而是学习何时拒绝记忆

今天两篇 memory 论文共同指向一个问题:外部记忆会引入新的 interference。尤其 coding agent 中,错误复用历史 debug trace 可能比不用记忆更糟。

可研究一个 abstention-aware memory controller

  • 用 bandit/RL 学习“用不用记忆、用哪类记忆、压缩到什么粒度”;
  • reward 不只看成功率,也看误注入风险、上下文预算、修复时间;
  • 评测可放在 SWE-bench 类环境或自建 issue-repair 环境中。

#Idea 3:把 verifier/sandbox 当作 RL 系统的一部分进行联合设计

ScaleBox、D3-Gym、ANCORA、RHyVE 都说明:未来 agent/RL 研究的核心资产是 verifier 和环境,而不是单一 prompt。一个可能的新问题是:

verifier 的延迟、噪声、覆盖率、并发调度策略,会如何影响 agentic RL 的学习动态?

可做方向:

  • 建立 reward noise / verifier coverage 与 policy collapse/overfitting 的关系;
  • 设计分层 verifier:cheap static checks → unit tests → expensive integration tests → human/LLM judge;
  • 对 code agent 研究“什么时候值得运行昂贵测试”,类似 step-level compute allocation。

#附:本次检索限制与可信度说明

  • arXiv 页面和 Hugging Face Papers 可访问,本文中的 arXiv/HF 链接均来自实际检索结果。
  • GitHub Search API 可访问,但新仓库存在刷星、迁移、营销标题等噪声;本文只将其作为动态线索,不作为学术结论。
  • X/Twitter 未作为本次主信息源;为避免不可验证传播,本文优先使用论文页、HF、GitHub 等可直接访问来源。