每日调研 2026-05-11 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-11 AI/LLM 最新论文与研究热点简报

时间范围：主要覆盖 arXiv / Hugging Face / GitHub 在 2026-05-07 至 2026-05-11 可访问的新论文与热点项目。由于周末 arXiv/HF 日榜更新节奏不稳定，实际筛选窗口扩展到最近 3-7 天；所有条目均基于可访问页面核验，未使用不可验证的 X/Twitter 信息。

#0. 今日总判断

今天最值得 wenjun 注意的趋势是：Agent RL 正在从“对整条轨迹给一个稀疏 reward”转向“显式结构化轨迹”：策略抽象、递归委托、技能库演化、milestone credit assignment、turn-level credit、tree-search rollout informativeness 都在同时出现。这与长轨迹 LLM Agent / model-based RL 的交叉非常直接：如果把 agent 轨迹看成“可压缩、可规划、可复用、可诊断”的对象，那么 world model / latent reasoning / skill memory 会成为同一套训练系统里的不同模块。

另一条线是 latent-space reasoning / compression：LatentRAG、Continuous Latent Diffusion LM、MiA-Signature、Lighthouse Attention 都在挑战“所有中间状态都必须用自然语言 token 展开”的默认范式。对长上下文 agent 来说，这可能比单纯扩大 context window 更有研究价值。

#1. 重点论文与动态

#1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

链接：https://arxiv.org/abs/2605.06642
来源：arXiv cs.CL / cs.AI
日期：2026-05-07
类别：LLM Agent / Post-training RL / Long-horizon Agent
一句话核心贡献：提出 Strategic Trajectory Abstraction，在任务初始状态采样紧凑“策略”，后续动作条件化在该策略上，并用 hierarchical GRPO 风格训练策略生成与动作执行。

为什么值得关注：它直接击中长轨迹 agent RL 的两个老问题：探索太 reactive、信用分配太粗。StraTA 的关键不是多一个 prompt，而是把 trajectory-level strategy 变成可训练的隐变量/高层 action。论文报告在 ALFWorld、WebShop、SciWorld 上均优于强基线，ALFWorld 93.1%、WebShop 84.2%、SciWorld 63.5。

与 wenjun 方向的关系：这可以看作 LLM Agent 版 hierarchical RL。若结合 model-based RL，可进一步把 strategy 当作 latent plan，让 world/action model 预测“这个策略会导向哪些中间状态/失败模式”。

#2. Recursive Agent Optimization

链接：https://arxiv.org/abs/2605.06639
来源：arXiv cs.LG / cs.AI / cs.CL / cs.MA
日期：2026-05-07
类别：LLM Agent / Agentic RL / Test-time Scaling
一句话核心贡献：提出 RAO，用强化学习训练可递归创建自身实例并委托子任务的 agent，学习何时分解、委托与通信。

为什么值得关注：递归 agent 本质上是一种 inference-time scaling algorithm，可以通过 divide-and-conquer 突破单 agent context/window/serial reasoning 限制。论文声称 RAO 在训练效率、泛化到更难任务、墙钟时间方面均有收益。

与 wenjun 方向的关系：递归调用产生天然层级轨迹，适合研究 credit assignment、memory summarization、subtask world model，以及如何防止子 agent 信息污染。

#3. SkillOS: Learning Skill Curation for Self-Evolving Agents

链接：https://arxiv.org/abs/2605.06614
来源：arXiv cs.AI / cs.CL；Hugging Face Papers 热门
日期：2026-05-07
类别：LLM Agent / Self-evolving Agent / Skill Memory / RL
一句话核心贡献：把自演化 agent 的瓶颈定位为 skill curation，用冻结 executor + 可训练 curator 更新外部 SkillRepo，并通过任务流中后续相关任务的表现给间接延迟 reward。

为什么值得关注：很多 skill library 工作只优化检索或蒸馏，SkillOS 强调长期 skill repo 管理策略：保留、改写、合并、淘汰哪些技能，不是人工 heuristic，而是从 task stream 的 delayed feedback 中学。

与 wenjun 方向的关系：这是 self-evolving code/agent 的核心问题之一。对代码 agent，可把 bug fix、test repair、dependency upgrade、API migration 视作流式任务，训练 curator 维护“可复用开发技能”。

#4. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

链接：https://arxiv.org/abs/2605.06130
来源：arXiv cs.AI；Hugging Face Papers 热门
日期：2026-05-07
类别：LLM Agent / Skill-Augmented Agent / RL
一句话核心贡献：统一训练一个 policy 同时做 skill 查询、候选重排、基于技能解题、从轨迹蒸馏新技能，所有学习信号来自同一个 task-outcome reward。

为什么值得关注：与 SkillOS 相比，Skill1 更像端到端的 skill lifecycle policy：选择-使用-蒸馏共演化。两篇放在一起看，说明 skill memory 正在从“外挂数据库”变成“RL 可优化的 agent 内部机制”。

#5. Milestone-Guided Policy Learning for Long-Horizon Language Agents

链接：https://arxiv.org/abs/2605.06078
来源：arXiv cs.CL / cs.AI
日期：2026-05-07
类别：LLM Agent / Long-horizon Agent / Post-training RL
一句话核心贡献：提出 BEACON，按 milestone 切分轨迹，在 segment 内做 temporal reward shaping，并用双尺度 advantage 避免远端失败污染早期正确动作。

为什么值得关注：长轨迹 agent 的失败往往不是“完全不会”，而是终局 sparse reward 抹掉了局部正确进展。BEACON 报告在 ALFWorld 长任务上从 GRPO 的 53.5% 提到 92.9%，有效样本利用率从 23.7% 到 82.0%。

与 wenjun 方向的关系：如果研究 Dreamer/model-based agent，milestone 可以作为 latent state abstraction 或 imagined rollout 的边界，而不只是 reward shaping 技巧。

#6. A2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

链接：https://arxiv.org/abs/2605.06200
来源：arXiv cs.CL
日期：2026-05-07
类别：LLM Agent / Tool-use / Post-training RL
一句话核心贡献：针对多轮 tool-call 中每一 turn 的贡献难以评估，利用 ground-truth 概率变化的 Information Gain 作为内在过程信号，并设计 turn-group policy optimization 与自适应 clipping。

为什么值得关注：它试图不依赖外部 process reward model，在 RL loop 内从 policy 自身读出 turn-level 信用信号。对 tool-use agent，turn-level 训练比整轨迹 reward 更可扩展。

#7. Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic RL

链接：https://arxiv.org/abs/2605.05262
来源：arXiv stat.ML / cs.AI / cs.LG
日期：2026-05-06
类别：Tool-use / Agentic RL / Tree Search / RLVR
一句话核心贡献：把固定预算下 rollout informativeness 形式化为可注入 GRPO 的非消失 policy-gradient mass，并将中间状态选择重写为单调 submodular maximization。

为什么值得关注：这篇比“多采样一点”更理论化：证明 budget-agnostic independent sampler 在 hard prompts 上会出现 collapse，并提出 InfoTree、UUCB、Adaptive Budget Allocator、Speculative Expansion。对训练时 tree search 的预算分配很有参考价值。

#8. LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

链接：https://arxiv.org/abs/2605.06285
来源：arXiv cs.CL / cs.LG
日期：2026-05-07
类别：Latent Reasoning / Agentic RAG / Retrieval / Context Compression
一句话核心贡献：把 agentic RAG 中自然语言 thought/subquery 的自回归生成替换为一次 forward 得到的 latent tokens，并对齐 LLM hidden state 与 dense retriever latent space。

为什么值得关注：Agentic RAG 的主要成本来自“想很多自然语言再查很多次”。LatentRAG 的方向是让中间推理与检索 query 在连续潜空间发生，只在必要时解码成文字。它可能牺牲可解释性，但明显更接近高效长轨迹 agent。

与 wenjun 方向的关系：这是 latent-space reasoning 在检索/agent 里的直接实例。值得追问：latent subquery 是否能作为 world model 的状态？能否对 latent plan 做 value estimation？

#9. Continuous Latent Diffusion Language Model

链接：https://arxiv.org/abs/2605.06548
来源：arXiv cs.CL / cs.AI / cs.CV；Hugging Face Papers 热门
日期：2026-05-07
类别：Latent Reasoning / Foundation Model Architecture / Non-autoregressive Generation
一句话核心贡献：提出 Cola DLM：Text VAE 将文本映射到稳定 latent，block-causal DiT 建模全局语义先验，再通过条件解码生成文本。

为什么值得关注：它把语言生成拆成“全局语义组织”和“局部文本实现”，diffusion 过程做 latent prior transport，而不是 token-level observation recovery。对“推理是否必须 token-by-token 展开”这个问题提供了另一种体系结构答案。

#10. MiA-Signature: Approximating Global Activation for Long-Context Understanding

链接：https://arxiv.org/abs/2605.06416
来源：arXiv cs.CL；Hugging Face Papers 热门
日期：2026-05-07
类别：Context Compression / Long-context / Agent Memory
一句话核心贡献：提出 Mindscape Activation Signature，用 submodular selection 选择覆盖 query 诱发的高层概念集合，作为近似全局 activation pattern 的压缩表示。

为什么值得关注：它不是简单 summary，而是试图近似“query 激活了长上下文中哪些概念区域”。集成到 RAG 和 agentic systems 后报告多任务提升。

#11. Long Context Pre-Training with Lighthouse Attention

链接：https://arxiv.org/abs/2605.06554
来源：arXiv cs.CL
日期：2026-05-07
类别：Long-context / Pretraining Systems / Efficient Training
一句话核心贡献：提出训练期使用的 Lighthouse Attention，对 Q/K/V 对称做层级选择压缩/解压，并在训练末期恢复 full attention。

为什么值得关注：它把长上下文能力的成本问题放回 pretraining 阶段，而不是只靠推理期稀疏注意力或外部 RAG。对基础模型训练机制和长上下文 agent 基座有参考价值。

#12. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

链接：https://arxiv.org/abs/2605.06638
来源：arXiv cs.AI / cs.CL
日期：2026-05-07
类别：Post-training RL / Reasoning / Scaling Law
一句话核心贡献：提出 ScaleLogic，可独立控制证明深度与逻辑表达力；发现 RL 训练 compute 对 reasoning depth 呈幂律，且逻辑表达力越强，幂律指数越大。

为什么值得关注：这篇提供了 controlled environment 来研究“RL 到底在学什么”。它的结论提醒我们：长 horizon 本身不是全部，环境/任务语言的 expressiveness 决定训练难度与迁移收益。

#13. Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

链接：https://arxiv.org/abs/2605.06241
来源：arXiv cs.CL
日期：2026-05-07
类别：Post-training RL / Reasoning Mechanism
一句话核心贡献：该工作质疑 RL 是否真正创造新能力，主张 RL 更像是在稀疏候选策略中选择/放大已有策略。

为什么值得关注：如果 RL 主要是 policy selection，那么 agent 预训练数据、skill library、trajectory diversity 的作用会比单纯 RL 算法更重要。

#14. OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models

链接：https://arxiv.org/abs/2605.06188
来源：arXiv cs.AI / cs.CL
日期：2026-05-07
类别：RLVR / Reasoning Compression / Post-training
一句话核心贡献：发现 OPSD 在 thinking-enabled 数学推理中更可靠地表现为“压缩正确长 reasoning traces”，而不是修正错误 traces。

为什么值得关注：对 reasoning model 训练 pipeline 很实用：先 RLVR 得到能力和长思维，再用 OPSD 做 post-RL compaction，可能比直接用 hindsight supervision 修错更稳。

#15. Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning

链接：https://arxiv.org/abs/2605.06326
来源：arXiv cs.CL
日期：2026-05-07
类别：Tool-use / TIR / RLVR / Post-training
一句话核心贡献：系统分析如何给 strong thinking model 注入自然 tool-use 行为，同时不损害 no-tool reasoning；提出 TIR SFT + 稳定 RLVR 的完整 recipe。

为什么值得关注：一个重要观察是：即使模型几乎不调用工具，tool-enabled evaluation 也可能降低 reasoning 表现。这说明 tool-use 不是简单加 API，而是会改变模型的行为分布和评价上下文。

#16. Teaching LLMs Program Semantics via Symbolic Execution Traces

链接：https://arxiv.org/abs/2605.06184
来源：arXiv cs.SE / cs.LG / cs.PL
日期：2026-05-07
类别：Code Intelligence / Program Semantics / Continual Pretraining
一句话核心贡献：用 Soteria symbolic execution 生成的约 3000 条 bug traces 对 Qwen3-8B 继续预训练，在 C 程序验证中显著提升 violation detection。

为什么值得关注：这是“代码数据质量/程序语义数据”比海量自然语言代码更关键的例子。symbolic execution trace 与 CoT 组合有 superadditive 效果，单独使用均不明显。

与 wenjun 方向的关系：对 code agent 预训练数据塑造能力非常相关：不是只收集 repo，而是收集可执行、可验证、带状态转移的程序语义轨迹。

#17. Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

链接：https://arxiv.org/abs/2605.06111
来源：arXiv cs.SE / cs.AI
日期：2026-05-07
类别：Code Intelligence / Code RL / RLVR / Multi-task RL
一句话核心贡献：提出 ASTOR，用 task utility 同时做分层数据调度和 per-task KL 自适应校准，改进代码 LLM 多任务 RL。

为什么值得关注：代码 RL 不能把所有任务均匀混在一起训。ASTOR 的 utility 概念可以看作“每类任务当前的学习潜力 + 跨任务协同”。这对统一 code specialist 很实用。

#18. Constraint Decay: The Fragility of LLM Agents in Backend Code Generation

链接：https://arxiv.org/abs/2605.06445
来源：arXiv cs.SE / cs.AI
日期：2026-05-07
类别：Code Agent / Evaluation / Software Engineering
一句话核心贡献：系统评估多文件 backend 生成中 agent 对结构性约束的遵守能力，发现约束越多，assertion pass rate 平均下降约 30 点。

为什么值得关注：生产级软件不是“功能测试过了”就行，还要遵守架构、ORM、数据库、分层模式等非功能约束。这篇把 constraint decay 作为 coding agent 的独立失败模式。

#19. To What Extent Does Agent-generated Code Require Maintenance? An Empirical Study

链接：https://arxiv.org/abs/2605.06464
来源：arXiv cs.SE
日期：2026-05-07
类别：Code Agent / Software Maintenance / Empirical Study
一句话核心贡献：基于 AIDev 和 GitHub 分析 100 个热门仓库中 AI-generated PR 文件的维护情况，发现 AI 生成文件维护频率较低，后续改动多为功能扩展，人类仍承担绝大部分维护。

为什么值得关注：这提供了 coding agent 长期影响的真实仓库视角。对 self-evolving code agent 来说，生成后维护行为可能比一次性 SWE-bench 分数更重要。

#20. Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less

链接：https://arxiv.org/abs/2605.06654
来源：arXiv cs.LG / cs.AI
日期：2026-05-07
类别：Continual Learning / Finetuning / Training Mechanism
一句话核心贡献：观察到 SFT 使用与预训练相同的 optimizer，可获得更好的 learning-forgetting tradeoff，提出 optimizer-model consistency。

为什么值得关注：这对持续学习和高效后训练很重要：遗忘不只由数据/LoRA/full FT 决定，pretraining optimizer 在模型周围塑造的 landscape 也会影响后续更新方向。

#21. EMO: Pretraining Mixture of Experts for Emergent Modularity

链接：https://arxiv.org/abs/2605.06663
来源：arXiv cs.CL
日期：2026-05-07
类别：Foundation Model / MoE / Pretraining Mechanism
一句话核心贡献：提出 EMO，通过让同一文档内 token 选择共享 expert pool，鼓励专家按文档/领域自然分化，使 expert 子集可独立使用和组合。

为什么值得关注：如果成立，它会让 MoE 从“稀疏加速结构”变成“可组合能力模块”。这对 agent 预训练数据如何塑造能力、领域专家如何形成都有启发。

#22. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

链接：https://arxiv.org/abs/2605.06651
来源：arXiv cs.AI
日期：2026-05-07
类别：LLM Agent / Research Agent / Tool-use
一句话核心贡献：提出面向数学研究的 agentic workbench，支持 ideation、文献检索、计算探索、定理证明、理论构建，并在 FrontierMath Tier 4 达到 48%。

为什么值得关注：重点不是数学 benchmark，而是“异步、有状态、管理不确定性、追踪失败假设、输出原生数学 artifacts”的 workspace 设计。这与 general research agent 的产品形态高度相关。

#2. 今日值得跟进的 repo / model / dataset

#1. NousResearch / hermes-agent

链接：https://github.com/NousResearch/hermes-agent
来源：GitHub Trending / GitHub API
最近更新：2026-05-10
类别：LLM Agent / Personal Agent / Self-improving Agent
简述：仓库描述为 “The agent that grows with you”，日榜热度高。值得跟进其 memory、skill、tool-use 设计是否与 SkillOS/Skill1 的“技能库演化”路线收敛。

#2. lsdefine / GenericAgent

链接：https://github.com/lsdefine/GenericAgent
来源：GitHub Trending / GitHub API
最近更新：2026-05-09
类别：Self-evolving Agent / Skill Tree
简述：仓库描述强调 self-evolving agent，从 3.3K 行 seed 生成 skill tree，并声称 token 消耗减少 6x。适合观察工程上如何实现技能增长、技能组织与环境控制。

#3. XiaomiMiMo / MiMo-V2.5-Pro

链接：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro
来源：Hugging Face Trending / HF API
最近修改：2026-05-08
类别：Agent / Long-context / Code / Text Generation
简述：HF 标签包含 agent、long-context、code、zh/en、fp8。作为中文/英文长上下文 agent/code 模型，值得测试其在代码 agent 和长轨迹任务中的真实表现。

#4. Zyphra / ZAYA1-8B

链接：https://huggingface.co/Zyphra/ZAYA1-8B
技术报告：https://arxiv.org/abs/2605.05365
来源：Hugging Face Trending / HF API
创建：2026-05-04；最近修改：2026-05-08
类别：Efficient LLM / Reasoning / Code
简述：8.4B total、760M active 的小 MoE reasoning model，README 强调数学与 coding reasoning、适合 test-time compute harness。可作为小模型 agent RL 实验基座。

#5. NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

链接：https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
来源：Hugging Face Trending / HF API
最近修改：2026-05-08
类别：Multimodal / Agentic Workflow / Long-context
简述：31B total、约 3B active/token，Mamba2-Transformer hybrid MoE，256k context，输入支持 video/audio/image/text，README 明确定位 GUI/agentic workflows、document intelligence、ASR。

#3. 今日最值得精读的 3 篇

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

精读理由：它把长轨迹 agent RL 的“高层策略”显式化，是连接 hierarchical RL、latent plan、agent world model 的好入口。

SkillOS: Learning Skill Curation for Self-Evolving Agents

精读理由：skill curation 是 self-evolving agent 能否长期变强的关键瓶颈；该文把 skill repo 管理变成可 RL 训练的 delayed-feedback 问题。

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

精读理由：与 wenjun 近期关注的 latent-space reasoning 高度相关，且落在 agentic RAG 这个可实验、可度量场景中。

候补：Milestone-Guided Policy Learning for Long-Horizon Language Agents、Teaching LLMs Program Semantics via Symbolic Execution Traces。

#4. 研究机会 / idea

#Idea 1：把 StraTA 的 strategy 变量升级成可学习 world-model latent state

现有 StraTA 主要把 strategy 当作 trajectory-level conditioning signal。可以进一步研究：

strategy 是否能预测未来 milestone 分布、失败类型、tool-call budget？
能否训练一个 lightweight dynamics model：latent strategy + current observation -> next milestone / value / uncertainty？
在 agent RL 中，用 imagined strategy rollouts 先筛掉低价值探索，再真实执行。

这会把 LLM Agent RL 往 Dreamer/model-based RL 方向推进。

#Idea 2：技能库不是文本库，而是“可验证转移函数库”

SkillOS/Skill1 的 skill 多半仍是文本经验。对 code agent，可以把 skill 表示成：

触发条件：repo 状态 / error trace / failing test pattern；
操作模板：修改哪些文件、运行哪些命令；
验证器：unit test / static verifier / symbolic execution；
失败反例：哪些场景下此 skill 不适用。

这样 skill repo 就更像 model-based RL 里的 option library，每个 option 都有 termination 与 success predictor。

#Idea 3：用 symbolic execution traces 做 code-agent 预训练数据，而不是只做代码补全数据

“Teaching LLMs Program Semantics via Symbolic Execution Traces”提示：少量高质量程序语义轨迹能显著改善 violation detection。可以扩展到 agent 预训练：

收集 bug trace -> patch attempt -> verifier feedback -> corrected trace；
训练模型预测下一步检查/修改，而非只预测代码 token；
与 ASTOR 的 multi-task RL 结合，动态调度 repair、verification、dependency、refactor 等任务。

这比堆更多 GitHub 代码更接近“代码智能能力形成机制”。

#5. 来源访问说明

Hugging Face Papers 页面可访问，但日期页在周末呈现相同热门列表，因此用 HF 热门作为补充信号，不把其排序等同于严格 24 小时新发。
arXiv recent 页面可访问；arXiv API 在检索过程中出现过 429，因此改用 arXiv abs/recent 页面逐项核验标题、日期和摘要。
GitHub Trending 与 GitHub API 可访问，用于 repo 热点核验。
X/Twitter 未作为事实来源使用；本简报以 arXiv、Hugging Face、GitHub 为主，避免引用不可稳定访问的社交媒体传闻。