#2026-05-08 AI/LLM 最新论文与研究热点简报

检索时间:2026-05-08 08:00 CST。主要覆盖 arXiv 2026-05-04 至 2026-05-07 的新提交/更新、Hugging Face Daily Papers 2026-05-07 榜单,以及 GitHub 近期更新项目。arXiv API 在检索中出现 429 限流,因此本期以 arXiv recent/abs 页面与 HF Papers 页面交叉核验;X/Twitter 未作为主来源,改用 arXiv、HF、GitHub 作为可验证来源。

#0. 今日总览:给 wenjun 的快速判断

过去 24-48 小时最贴近你主线的信号非常集中:长轨迹 Agent 的瓶颈正在从“模型会不会推理”转向“轨迹、上下文、记忆、工具调用和训练反馈如何被组织”。值得注意的四条线:

  1. 长程 Agent 的上下文编排:LongSeeker/Context-ReAct 把 Skip、Compress、Rollback、Snippet、Delete 变成 Agent 可操作的上下文动作;这和“通用上下文压缩器”“长轨迹 RL”的交叉很强。
  2. Agent RL 的 credit assignment 更细粒度:SIOP、FineStep、Strat-Reasoner、OpenSearch-VL 都在处理长程或多智能体下的奖励稀疏、工具失败、过程信号缺失问题。
  3. 世界模型重新进入 Agent 语境:ARC-AGI-3 的 executable Python world model 和 OpenSearch-VL/RLDX-1 的环境/工具/世界表征,都暗示“model-based RL for LLM Agent”可以先从可执行外部世界模型而非纯 latent dynamics 开始落地。
  4. 代码 Agent 评测和工具化继续细分:SWE-WebDevBench、ARISE、CodeEvolve、CoREB、AuditRepairBench 分别从虚拟软件公司、repo graph/data-flow、运行时优化、代码搜索、评测泄漏稳定性几个角度补齐基础设施。

#1. 最值得关注的 5 条

#1.1 LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

  • 类别:LLM Agent / Context Compression / Tool-use / Long-horizon Agent
  • 来源与日期:arXiv,2026-05-06;HF Daily Papers 2026-05-07 榜单相关方向
  • 链接:https://arxiv.org/abs/2605.05191
  • 一句话核心贡献:提出 Context-ReAct,把长程搜索 Agent 的轨迹上下文管理显式化为 Skip、Compress、Rollback、Snippet、Delete 五种原子操作,并基于 Qwen3-30B-A3B 微调出 LongSeeker,在 BrowseComp/BrowseComp-ZH 上显著超过若干 DeepResearch 类基线。

为什么值得关注:这篇不是简单“压缩 prompt”,而是把上下文当作 Agent 行动空间的一部分。它直接碰到长轨迹 Agent 的核心问题:中间观察、失败分支、已解决证据、工具返回结果到底应该如何保留、压缩或删除。

与 wenjun 研究方向的关系:如果你在做 LLM Agent RL 或 Dreamer-like Agent,context state 可以被看成环境状态的一部分;Context-ReAct 给出一组可离散化、可训练、可评估的 memory/action primitives。


#1.2 Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

  • 类别:LLM Agent / Post-training RL / Credit Assignment / Evaluation
  • 来源与日期:arXiv,2026-05-06
  • 链接:https://arxiv.org/abs/2605.04984
  • 一句话核心贡献:提出 SIOP,把多次 rollout 的最终答案语义簇视为 latent future outcome states,在没有 gold verifier 的情况下为中间 turn 分配 potential-based reward。

为什么值得关注:当前 Agent RL 最大痛点之一是长程任务只有最终反馈;GRPO/RLVR 类方法容易把同一个 trajectory-level advantage 广播给所有步骤。SIOP 用“未来可能结果的语义分布变化”评价当前 turn 是否让轨迹朝可靠结果移动。

与 wenjun 研究方向的关系:这非常接近长轨迹 RL 和 latent-space reasoning:最终答案簇可以看成一种离散 latent outcome space;中间行为的价值由它对 latent outcome posterior 的影响决定。


#1.3 Executable World Models for ARC-AGI-3 in the Era of Coding Agents

  • 类别:Model-based RL / Code Agent / World Model / Evaluation
  • 来源与日期:arXiv,2026-05-06
  • 链接:https://arxiv.org/abs/2605.05138
  • 一句话核心贡献:在 ARC-AGI-3 中让 coding agent 维护可执行 Python world model,通过历史观察验证、向更简单抽象重构、基于模型规划后再行动;公开 25 个游戏上解出 7 个的初步结果。

为什么值得关注:这篇把“world model”从神经网络 latent dynamics 拉回到可执行程序:可验证、可重构、可规划。它很适合作为 LLM Agent model-based RL 的一个现实起点。

与 wenjun 研究方向的关系:Dreamer for LLM Agent 未必一开始就要学连续 latent dynamics;可执行 Python world model 也许是更适合代码智能/抽象推理任务的 world model 表示。


#1.4 OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

  • 类别:LLM Agent / Tool-use / Post-training RL / Multimodal Agent
  • 来源与日期:arXiv,2026-05-06;HF Daily Papers 2026-05-07 榜单
  • 链接:https://arxiv.org/abs/2605.05185
  • GitHub:https://github.com/shawn0728/OpenSearch-VL
  • 一句话核心贡献:开源多模态 deep search agent 的训练 recipe:构造 SearchVL-SFT-36k 和 SearchVL-RL-8k,接入搜索、OCR、裁剪、超分等工具环境,并提出 fatal-aware GRPO 处理级联工具失败。

为什么值得关注:这是 recipe 型工作,价值在于把数据生成、工具环境、SFT/RL、失败处理串起来。multi-turn fatal-aware GRPO 对工具失败后的信用分配尤其值得借鉴。

与 wenjun 研究方向的关系:可迁移到代码 Agent:测试失败、环境安装失败、权限失败、irreversible file operation 失败,都可以有类似的 fatal-aware credit assignment。


#1.5 Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

  • 类别:Post-training RL / Systems / Evaluation
  • 来源与日期:arXiv,2026-05-06
  • 链接:https://arxiv.org/abs/2605.04431
  • 一句话核心贡献:构建 RFT-FaultBench,覆盖 5 类、16 种 RFT 训练故障和 779 次训练 run,并提出 RFT-FM 做异常检测、故障诊断和自动修复闭环。

为什么值得关注:LLM RFT/RLVR 的真实训练经常死在 reward bug、采样异常、KL/entropy 崩坏、数据/评测泄漏、系统问题。该工作把“训练过程故障管理”本身变成 benchmark 和系统问题。

与 wenjun 研究方向的关系:如果后续做 Agent RL 或代码 RL,训练系统可观测性会变成硬瓶颈;RFT-FaultBench 的 fault taxonomy 值得拿来对照自己的训练 pipeline。


#2. 其他值得扫读的论文/动态

标题类别来源/日期链接一句话核心贡献
Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent GamesLLM Agent / Post-training RL / Multi-agentarXiv, 2026-05-06https://arxiv.org/abs/2605.04906用递归建模其他智能体推理、中心化 CoT 比较和 group-relative RL 来提升多智能体博弈战略推理,摘要报告平均 22.1% 提升。
Every Step Counts: Step-Level Credit Assignment for Tool-Integrated Text-to-SQLTool-use / Post-training RL / Credit AssignmentarXiv, 2026-05-06https://arxiv.org/abs/2605.04719为工具增强 Text-to-SQL 设计独立过程奖励和 step-level advantage,缓解只有最终 SQL 正确性奖励导致的信用分配问题。
Uno-Orchestra: Parsimonious Agent Routing via Selective DelegationLLM Agent / Systems / RoutingarXiv, 2026-05-06https://arxiv.org/abs/2605.05007用从真实 worker 交互中学习的统一编排策略,联合决定任务是否分解、分解深度、worker/model/primitive 选择和预算。
AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool UseTool-use / Safety / SystemsarXiv, 2026-05-06https://arxiv.org/abs/2605.04785在 agent tool call 执行前做 allow/warn/block/review 判定,覆盖 shell 去混淆、RiskChain、多步攻击链和 SafeFix 建议。
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent GamesLLM Agent / Evaluation / Multi-agentarXiv, 2026-05-05https://arxiv.org/abs/2605.04312用持续对抗的多智能体游戏替代静态题集,试图缓解 benchmark 饱和和污染,并发布 game logs。
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search SystemsLLM Agent / Retrieval / EvaluationarXiv, 2026-05-05;HF Daily Papers 2026-05-07https://arxiv.org/abs/2605.04018提出 BRIGHT-Pro 和 RTriever-Synth,强调 agentic search 中检索器要找互补证据组合,而非单段相关性。
Telegraph English: Semantic Prompt Compression via Structured Symbolic RewritingContext Compression / PromptingarXiv, 2026-05-06https://arxiv.org/abs/2605.04426将自然语言重写成符号化、结构化的 Telegraph English,在约 50% token reduction 下保留关键事实准确性,并把压缩与语义索引合一。
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory DynamicsContinual Learning / Agent MemoryarXiv, 2026-05-06https://arxiv.org/abs/2605.05097提出 Memini,把外部记忆建成带快慢变量的关联图,模仿生物记忆中的快速可用、逐步巩固和选择性遗忘。
Storage Is Not Memory: A Retrieval-Centered Architecture for Agent RecallAgent Memory / Retrieval / SystemsarXiv, 2026-05-06https://arxiv.org/abs/2605.04897主张 ingestion 阶段不应过早抽取丢信息,提出以多阶段检索为中心、保留原始事件的 True Memory 架构。
The Scaling Properties of Implicit Deductive Reasoning in TransformersLatent Reasoning / Mechanistic / ScalingarXiv, 2026-05-05https://arxiv.org/abs/2605.04330在 Horn clauses 上研究隐式演绎推理的 scaling,发现足够深且带 bidirectional prefix mask 的模型可接近显式 CoT,但深度外推仍需 CoT。
ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement LearningPost-training RL / Reasoning / RLVRarXiv, 2026-05-01;HF Daily Papers 2026-05-07https://arxiv.org/abs/2605.00380针对 RLVR 中正奖励过强导致多样性不足的问题,用负样本投影残差调制负梯度,减少正负语义共享部分被误伤。
Reinforcement Learning for Compositional Generalization with Outcome-Level OptimizationPost-training RL / GeneralizationarXiv, 2026-05-06https://arxiv.org/abs/2605.04920用 GRPO 的 outcome-level reward 改善组合泛化,认为 RL 可重塑输出分布、缓解 SFT 对高频组合的过拟合。
SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software AgenciesCode Agent / EvaluationarXiv, 2026-05-06;HF Daily Papers 2026-05-07https://arxiv.org/abs/2605.04637将 vibe coding 平台按虚拟软件公司评测,覆盖需求理解、架构、生产代码、修改请求、运维、安全等 68 项指标。
ARISE: A Repository-level Graph Representation and Toolset for Agentic Fault Localization and Program RepairCode Agent / Program Repair / Tool-usearXiv, 2026-05-04https://arxiv.org/abs/2605.03117为 repo 级故障定位和修复提供多粒度 program graph 与 statement-level def-use slicing API,在 SWE-bench Lite 上提升定位和修复。
CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code EnhancementCode Agent / Search / OptimizationarXiv, 2026-05-06https://arxiv.org/abs/2605.04677将 OpenEvolve 扩展为带运行时 profiling、MCTS、自动评测过滤的多语言代码优化框架,企业 Java 热点函数平均 15.22x speedup。
Beyond Retrieval: A Multitask Benchmark and Model for Code SearchCode Intelligence / Retrieval / EvaluationarXiv, 2026-05-06https://arxiv.org/abs/2605.04615提出 CoREB,一个污染受限、多任务代码检索与 reranking benchmark,并发布 fine-tuned code reranker。
AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent RepairCode Agent / Evaluation / Benchmark ReliabilityarXiv, 2026-05-06https://arxiv.org/abs/2605.04624研究 agent repair leaderboard 在 evaluator reconfiguration 下的排名不稳定,发布 paired-execution trace corpus 并提出 evaluator-channel blocking 分析。
ARIS: Autonomous Research via Adversarial Multi-Agent CollaborationLLM Agent / Research Agent / AssurancearXiv, 2026-05-04https://arxiv.org/abs/2605.03042开源 autonomous research harness,用跨模型 adversarial collaboration、claim ledger 和证据审计降低长程研究 agent 的“貌似成功但证据不足”风险。
RLDX-1 Technical ReportEmbodied Agent / World Model-ish / RoboticsarXiv, 2026-05-05, v2 2026-05-06;HF Daily Papers 2026-05-07https://arxiv.org/abs/2605.03269提出面向灵巧操作的通用机器人策略 RLDX-1,使用 MSAT 融合多模态流,并在复杂真实任务中优于若干 frontier VLA。

#3. 今日最值得精读的 3 篇

  1. LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

链接:https://arxiv.org/abs/2605.05191

精读理由:直接命中长轨迹 Agent 的上下文状态管理,可抽象成 Agent action/state design 问题。

  1. Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

链接:https://arxiv.org/abs/2605.04984

精读理由:无 verifier 场景下的 turn-level credit assignment 很可能是 Agent RL 下一阶段关键问题。

  1. Executable World Models for ARC-AGI-3 in the Era of Coding Agents

链接:https://arxiv.org/abs/2605.05138

精读理由:给 model-based LLM Agent 一个可执行程序世界模型路线,适合和 Dreamer/latent world model 思路对照。

备选精读:OpenSearch-VL(recipe 完整,适合复现/借鉴)、RFT-FaultBench/RFT-FM(适合训练系统可靠性)。


#4. 今日最值得跟进的 3 个 repo/model/dataset

  1. OpenSearch-VL

- 链接:https://github.com/shawn0728/OpenSearch-VL

- 近期状态:GitHub 2026-05-07 更新,约 69 stars(检索时)。

- 跟进点:SearchVL-SFT-36k、SearchVL-RL-8k、工具环境和 fatal-aware GRPO 是否已完整释放;可借鉴到代码/网页 Agent。

  1. ARISE / repo-level graph slicing toolset

- 论文:https://arxiv.org/abs/2605.03117

- 跟进点:如果作者释放 graph builder 和 slicing API,可作为 SWE-agent/OpenHands 类系统的工具增强组件;重点看 def-use slice 的接口是否足够泛化。

  1. CoREB / CoREB-Reranker

- 论文:https://arxiv.org/abs/2605.04615

- 跟进点:污染受限 timed releases + graded relevance judgments 对代码检索/代码 Agent memory 很有价值;尤其适合测试“agentic repository search”是否真的比 embedding 检索强。

补充可跟进:LongSeeker 如果释放训练轨迹/Context-ReAct 数据,优先级很高;RFT-FaultBench 若开放,适合作为 RL training infra 的回归测试集。


#5. 研究机会 / idea

#Idea 1:把 context operation 作为 RL action,而不是固定 prompt 工程

LongSeeker 把 Skip/Compress/Rollback/Snippet/Delete 定义为上下文操作。可以设计一个小环境:长程 web/search/code debugging 任务中,policy 不仅选择下一步 tool call,也选择上下文管理动作。奖励包括最终正确性、token cost、证据覆盖率和 hallucination penalty。关键问题:

  • context action 的 credit assignment 如何做?
  • 压缩后的状态是否保留了对未来决策的 sufficient statistics?
  • 能否用 SIOP 式 latent outcome potential 给 context edits 打分?

#Idea 2:程序化 world model 作为 Dreamer for Code/Agent 的中间路线

Executable World Models for ARC-AGI-3 暗示:对许多 Agent 任务,LLM 更擅长构建“可执行假设程序”而不是黑盒 latent dynamics。可以考虑:

  • world model = Python simulator / repo graph / database schema / environment contract;
  • verifier = 单元测试、观察一致性、历史 trace replay;
  • planning = 在 world model 上 rollout;
  • policy improvement = 根据 verifier 和真实环境反馈更新 world model 与 action policy。

这条线很适合连接代码智能、model-based RL、LLM Agent。

#Idea 3:Agent RL 的 failure-aware credit assignment

OpenSearch-VL 的 fatal-aware GRPO、FineStep 的 step-level advantage、RFT-FM 的训练故障管理可以合起来形成一个方向:长轨迹 Agent 训练中,失败不是一个标量负奖励,而有类型、传播边界和可恢复性。代码 Agent 中尤其明显:编译失败、测试失败、依赖安装失败、权限失败、误删文件、评测泄漏,应该有不同的 masking/credit 策略。

可做的实验:在 SWE-bench Lite 或 WebDevBench 类环境中标注 failure type,比较普通 GRPO、step-level reward、fatal-aware masking、failure-type-conditioned advantage 的差异。


#6. 本期检索说明

  • Hugging Face Daily Papers 页面可访问,检索到 2026-05-07 榜单,包含 RLDX-1、OpenSearch-VL、Rethinking Reasoning-Intensive Retrieval、ResRL、SWE-WebDevBench 等。
  • arXiv recent/abs 页面可访问;arXiv export API 在本次 cron 检索中返回 429,因此摘要和日期通过 arXiv abs 页面核验。
  • GitHub API 可访问,检索到 OpenSearch-VL repo,以及若干低 star 的新 Agent/RL/benchmark repo;本期只把与论文强绑定或较可信的项目列为重点跟进。
  • X/Twitter 未纳入主检索,避免在不可稳定访问的情况下引用不可核验消息。