#2026-05-11 AI/LLM 最新论文与研究热点简报
时间范围:主要覆盖 arXiv / Hugging Face / GitHub 在 2026-05-07 至 2026-05-11 可访问的新论文与热点项目。由于周末 arXiv/HF 日榜更新节奏不稳定,实际筛选窗口扩展到最近 3-7 天;所有条目均基于可访问页面核验,未使用不可验证的 X/Twitter 信息。
#0. 今日总判断
今天最值得 wenjun 注意的趋势是:Agent RL 正在从“对整条轨迹给一个稀疏 reward”转向“显式结构化轨迹”:策略抽象、递归委托、技能库演化、milestone credit assignment、turn-level credit、tree-search rollout informativeness 都在同时出现。这与长轨迹 LLM Agent / model-based RL 的交叉非常直接:如果把 agent 轨迹看成“可压缩、可规划、可复用、可诊断”的对象,那么 world model / latent reasoning / skill memory 会成为同一套训练系统里的不同模块。
另一条线是 latent-space reasoning / compression:LatentRAG、Continuous Latent Diffusion LM、MiA-Signature、Lighthouse Attention 都在挑战“所有中间状态都必须用自然语言 token 展开”的默认范式。对长上下文 agent 来说,这可能比单纯扩大 context window 更有研究价值。
#1. 重点论文与动态
#1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
- 链接:https://arxiv.org/abs/2605.06642
- 来源:arXiv cs.CL / cs.AI
- 日期:2026-05-07
- 类别:LLM Agent / Post-training RL / Long-horizon Agent
- 一句话核心贡献:提出 Strategic Trajectory Abstraction,在任务初始状态采样紧凑“策略”,后续动作条件化在该策略上,并用 hierarchical GRPO 风格训练策略生成与动作执行。
为什么值得关注:它直接击中长轨迹 agent RL 的两个老问题:探索太 reactive、信用分配太粗。StraTA 的关键不是多一个 prompt,而是把 trajectory-level strategy 变成可训练的隐变量/高层 action。论文报告在 ALFWorld、WebShop、SciWorld 上均优于强基线,ALFWorld 93.1%、WebShop 84.2%、SciWorld 63.5。
与 wenjun 方向的关系:这可以看作 LLM Agent 版 hierarchical RL。若结合 model-based RL,可进一步把 strategy 当作 latent plan,让 world/action model 预测“这个策略会导向哪些中间状态/失败模式”。
#2. Recursive Agent Optimization
- 链接:https://arxiv.org/abs/2605.06639
- 来源:arXiv cs.LG / cs.AI / cs.CL / cs.MA
- 日期:2026-05-07
- 类别:LLM Agent / Agentic RL / Test-time Scaling
- 一句话核心贡献:提出 RAO,用强化学习训练可递归创建自身实例并委托子任务的 agent,学习何时分解、委托与通信。
为什么值得关注:递归 agent 本质上是一种 inference-time scaling algorithm,可以通过 divide-and-conquer 突破单 agent context/window/serial reasoning 限制。论文声称 RAO 在训练效率、泛化到更难任务、墙钟时间方面均有收益。
与 wenjun 方向的关系:递归调用产生天然层级轨迹,适合研究 credit assignment、memory summarization、subtask world model,以及如何防止子 agent 信息污染。
#3. SkillOS: Learning Skill Curation for Self-Evolving Agents
- 链接:https://arxiv.org/abs/2605.06614
- 来源:arXiv cs.AI / cs.CL;Hugging Face Papers 热门
- 日期:2026-05-07
- 类别:LLM Agent / Self-evolving Agent / Skill Memory / RL
- 一句话核心贡献:把自演化 agent 的瓶颈定位为 skill curation,用冻结 executor + 可训练 curator 更新外部 SkillRepo,并通过任务流中后续相关任务的表现给间接延迟 reward。
为什么值得关注:很多 skill library 工作只优化检索或蒸馏,SkillOS 强调长期 skill repo 管理策略:保留、改写、合并、淘汰哪些技能,不是人工 heuristic,而是从 task stream 的 delayed feedback 中学。
与 wenjun 方向的关系:这是 self-evolving code/agent 的核心问题之一。对代码 agent,可把 bug fix、test repair、dependency upgrade、API migration 视作流式任务,训练 curator 维护“可复用开发技能”。
#4. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
- 链接:https://arxiv.org/abs/2605.06130
- 来源:arXiv cs.AI;Hugging Face Papers 热门
- 日期:2026-05-07
- 类别:LLM Agent / Skill-Augmented Agent / RL
- 一句话核心贡献:统一训练一个 policy 同时做 skill 查询、候选重排、基于技能解题、从轨迹蒸馏新技能,所有学习信号来自同一个 task-outcome reward。
为什么值得关注:与 SkillOS 相比,Skill1 更像端到端的 skill lifecycle policy:选择-使用-蒸馏共演化。两篇放在一起看,说明 skill memory 正在从“外挂数据库”变成“RL 可优化的 agent 内部机制”。
#5. Milestone-Guided Policy Learning for Long-Horizon Language Agents
- 链接:https://arxiv.org/abs/2605.06078
- 来源:arXiv cs.CL / cs.AI
- 日期:2026-05-07
- 类别:LLM Agent / Long-horizon Agent / Post-training RL
- 一句话核心贡献:提出 BEACON,按 milestone 切分轨迹,在 segment 内做 temporal reward shaping,并用双尺度 advantage 避免远端失败污染早期正确动作。
为什么值得关注:长轨迹 agent 的失败往往不是“完全不会”,而是终局 sparse reward 抹掉了局部正确进展。BEACON 报告在 ALFWorld 长任务上从 GRPO 的 53.5% 提到 92.9%,有效样本利用率从 23.7% 到 82.0%。
与 wenjun 方向的关系:如果研究 Dreamer/model-based agent,milestone 可以作为 latent state abstraction 或 imagined rollout 的边界,而不只是 reward shaping 技巧。
#6. A2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
- 链接:https://arxiv.org/abs/2605.06200
- 来源:arXiv cs.CL
- 日期:2026-05-07
- 类别:LLM Agent / Tool-use / Post-training RL
- 一句话核心贡献:针对多轮 tool-call 中每一 turn 的贡献难以评估,利用 ground-truth 概率变化的 Information Gain 作为内在过程信号,并设计 turn-group policy optimization 与自适应 clipping。
为什么值得关注:它试图不依赖外部 process reward model,在 RL loop 内从 policy 自身读出 turn-level 信用信号。对 tool-use agent,turn-level 训练比整轨迹 reward 更可扩展。
#7. Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic RL
- 链接:https://arxiv.org/abs/2605.05262
- 来源:arXiv stat.ML / cs.AI / cs.LG
- 日期:2026-05-06
- 类别:Tool-use / Agentic RL / Tree Search / RLVR
- 一句话核心贡献:把固定预算下 rollout informativeness 形式化为可注入 GRPO 的非消失 policy-gradient mass,并将中间状态选择重写为单调 submodular maximization。
为什么值得关注:这篇比“多采样一点”更理论化:证明 budget-agnostic independent sampler 在 hard prompts 上会出现 collapse,并提出 InfoTree、UUCB、Adaptive Budget Allocator、Speculative Expansion。对训练时 tree search 的预算分配很有参考价值。
#8. LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG
- 链接:https://arxiv.org/abs/2605.06285
- 来源:arXiv cs.CL / cs.LG
- 日期:2026-05-07
- 类别:Latent Reasoning / Agentic RAG / Retrieval / Context Compression
- 一句话核心贡献:把 agentic RAG 中自然语言 thought/subquery 的自回归生成替换为一次 forward 得到的 latent tokens,并对齐 LLM hidden state 与 dense retriever latent space。
为什么值得关注:Agentic RAG 的主要成本来自“想很多自然语言再查很多次”。LatentRAG 的方向是让中间推理与检索 query 在连续潜空间发生,只在必要时解码成文字。它可能牺牲可解释性,但明显更接近高效长轨迹 agent。
与 wenjun 方向的关系:这是 latent-space reasoning 在检索/agent 里的直接实例。值得追问:latent subquery 是否能作为 world model 的状态?能否对 latent plan 做 value estimation?
#9. Continuous Latent Diffusion Language Model
- 链接:https://arxiv.org/abs/2605.06548
- 来源:arXiv cs.CL / cs.AI / cs.CV;Hugging Face Papers 热门
- 日期:2026-05-07
- 类别:Latent Reasoning / Foundation Model Architecture / Non-autoregressive Generation
- 一句话核心贡献:提出 Cola DLM:Text VAE 将文本映射到稳定 latent,block-causal DiT 建模全局语义先验,再通过条件解码生成文本。
为什么值得关注:它把语言生成拆成“全局语义组织”和“局部文本实现”,diffusion 过程做 latent prior transport,而不是 token-level observation recovery。对“推理是否必须 token-by-token 展开”这个问题提供了另一种体系结构答案。
#10. MiA-Signature: Approximating Global Activation for Long-Context Understanding
- 链接:https://arxiv.org/abs/2605.06416
- 来源:arXiv cs.CL;Hugging Face Papers 热门
- 日期:2026-05-07
- 类别:Context Compression / Long-context / Agent Memory
- 一句话核心贡献:提出 Mindscape Activation Signature,用 submodular selection 选择覆盖 query 诱发的高层概念集合,作为近似全局 activation pattern 的压缩表示。
为什么值得关注:它不是简单 summary,而是试图近似“query 激活了长上下文中哪些概念区域”。集成到 RAG 和 agentic systems 后报告多任务提升。
#11. Long Context Pre-Training with Lighthouse Attention
- 链接:https://arxiv.org/abs/2605.06554
- 来源:arXiv cs.CL
- 日期:2026-05-07
- 类别:Long-context / Pretraining Systems / Efficient Training
- 一句话核心贡献:提出训练期使用的 Lighthouse Attention,对 Q/K/V 对称做层级选择压缩/解压,并在训练末期恢复 full attention。
为什么值得关注:它把长上下文能力的成本问题放回 pretraining 阶段,而不是只靠推理期稀疏注意力或外部 RAG。对基础模型训练机制和长上下文 agent 基座有参考价值。
#12. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
- 链接:https://arxiv.org/abs/2605.06638
- 来源:arXiv cs.AI / cs.CL
- 日期:2026-05-07
- 类别:Post-training RL / Reasoning / Scaling Law
- 一句话核心贡献:提出 ScaleLogic,可独立控制证明深度与逻辑表达力;发现 RL 训练 compute 对 reasoning depth 呈幂律,且逻辑表达力越强,幂律指数越大。
为什么值得关注:这篇提供了 controlled environment 来研究“RL 到底在学什么”。它的结论提醒我们:长 horizon 本身不是全部,环境/任务语言的 expressiveness 决定训练难度与迁移收益。
#13. Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning
- 链接:https://arxiv.org/abs/2605.06241
- 来源:arXiv cs.CL
- 日期:2026-05-07
- 类别:Post-training RL / Reasoning Mechanism
- 一句话核心贡献:该工作质疑 RL 是否真正创造新能力,主张 RL 更像是在稀疏候选策略中选择/放大已有策略。
为什么值得关注:如果 RL 主要是 policy selection,那么 agent 预训练数据、skill library、trajectory diversity 的作用会比单纯 RL 算法更重要。
#14. OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
- 链接:https://arxiv.org/abs/2605.06188
- 来源:arXiv cs.AI / cs.CL
- 日期:2026-05-07
- 类别:RLVR / Reasoning Compression / Post-training
- 一句话核心贡献:发现 OPSD 在 thinking-enabled 数学推理中更可靠地表现为“压缩正确长 reasoning traces”,而不是修正错误 traces。
为什么值得关注:对 reasoning model 训练 pipeline 很实用:先 RLVR 得到能力和长思维,再用 OPSD 做 post-RL compaction,可能比直接用 hindsight supervision 修错更稳。
#15. Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning
- 链接:https://arxiv.org/abs/2605.06326
- 来源:arXiv cs.CL
- 日期:2026-05-07
- 类别:Tool-use / TIR / RLVR / Post-training
- 一句话核心贡献:系统分析如何给 strong thinking model 注入自然 tool-use 行为,同时不损害 no-tool reasoning;提出 TIR SFT + 稳定 RLVR 的完整 recipe。
为什么值得关注:一个重要观察是:即使模型几乎不调用工具,tool-enabled evaluation 也可能降低 reasoning 表现。这说明 tool-use 不是简单加 API,而是会改变模型的行为分布和评价上下文。
#16. Teaching LLMs Program Semantics via Symbolic Execution Traces
- 链接:https://arxiv.org/abs/2605.06184
- 来源:arXiv cs.SE / cs.LG / cs.PL
- 日期:2026-05-07
- 类别:Code Intelligence / Program Semantics / Continual Pretraining
- 一句话核心贡献:用 Soteria symbolic execution 生成的约 3000 条 bug traces 对 Qwen3-8B 继续预训练,在 C 程序验证中显著提升 violation detection。
为什么值得关注:这是“代码数据质量/程序语义数据”比海量自然语言代码更关键的例子。symbolic execution trace 与 CoT 组合有 superadditive 效果,单独使用均不明显。
与 wenjun 方向的关系:对 code agent 预训练数据塑造能力非常相关:不是只收集 repo,而是收集可执行、可验证、带状态转移的程序语义轨迹。
#17. Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
- 链接:https://arxiv.org/abs/2605.06111
- 来源:arXiv cs.SE / cs.AI
- 日期:2026-05-07
- 类别:Code Intelligence / Code RL / RLVR / Multi-task RL
- 一句话核心贡献:提出 ASTOR,用 task utility 同时做分层数据调度和 per-task KL 自适应校准,改进代码 LLM 多任务 RL。
为什么值得关注:代码 RL 不能把所有任务均匀混在一起训。ASTOR 的 utility 概念可以看作“每类任务当前的学习潜力 + 跨任务协同”。这对统一 code specialist 很实用。
#18. Constraint Decay: The Fragility of LLM Agents in Backend Code Generation
- 链接:https://arxiv.org/abs/2605.06445
- 来源:arXiv cs.SE / cs.AI
- 日期:2026-05-07
- 类别:Code Agent / Evaluation / Software Engineering
- 一句话核心贡献:系统评估多文件 backend 生成中 agent 对结构性约束的遵守能力,发现约束越多,assertion pass rate 平均下降约 30 点。
为什么值得关注:生产级软件不是“功能测试过了”就行,还要遵守架构、ORM、数据库、分层模式等非功能约束。这篇把 constraint decay 作为 coding agent 的独立失败模式。
#19. To What Extent Does Agent-generated Code Require Maintenance? An Empirical Study
- 链接:https://arxiv.org/abs/2605.06464
- 来源:arXiv cs.SE
- 日期:2026-05-07
- 类别:Code Agent / Software Maintenance / Empirical Study
- 一句话核心贡献:基于 AIDev 和 GitHub 分析 100 个热门仓库中 AI-generated PR 文件的维护情况,发现 AI 生成文件维护频率较低,后续改动多为功能扩展,人类仍承担绝大部分维护。
为什么值得关注:这提供了 coding agent 长期影响的真实仓库视角。对 self-evolving code agent 来说,生成后维护行为可能比一次性 SWE-bench 分数更重要。
#20. Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
- 链接:https://arxiv.org/abs/2605.06654
- 来源:arXiv cs.LG / cs.AI
- 日期:2026-05-07
- 类别:Continual Learning / Finetuning / Training Mechanism
- 一句话核心贡献:观察到 SFT 使用与预训练相同的 optimizer,可获得更好的 learning-forgetting tradeoff,提出 optimizer-model consistency。
为什么值得关注:这对持续学习和高效后训练很重要:遗忘不只由数据/LoRA/full FT 决定,pretraining optimizer 在模型周围塑造的 landscape 也会影响后续更新方向。
#21. EMO: Pretraining Mixture of Experts for Emergent Modularity
- 链接:https://arxiv.org/abs/2605.06663
- 来源:arXiv cs.CL
- 日期:2026-05-07
- 类别:Foundation Model / MoE / Pretraining Mechanism
- 一句话核心贡献:提出 EMO,通过让同一文档内 token 选择共享 expert pool,鼓励专家按文档/领域自然分化,使 expert 子集可独立使用和组合。
为什么值得关注:如果成立,它会让 MoE 从“稀疏加速结构”变成“可组合能力模块”。这对 agent 预训练数据如何塑造能力、领域专家如何形成都有启发。
#22. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
- 链接:https://arxiv.org/abs/2605.06651
- 来源:arXiv cs.AI
- 日期:2026-05-07
- 类别:LLM Agent / Research Agent / Tool-use
- 一句话核心贡献:提出面向数学研究的 agentic workbench,支持 ideation、文献检索、计算探索、定理证明、理论构建,并在 FrontierMath Tier 4 达到 48%。
为什么值得关注:重点不是数学 benchmark,而是“异步、有状态、管理不确定性、追踪失败假设、输出原生数学 artifacts”的 workspace 设计。这与 general research agent 的产品形态高度相关。
#2. 今日值得跟进的 repo / model / dataset
#1. NousResearch / hermes-agent
- 链接:https://github.com/NousResearch/hermes-agent
- 来源:GitHub Trending / GitHub API
- 最近更新:2026-05-10
- 类别:LLM Agent / Personal Agent / Self-improving Agent
- 简述:仓库描述为 “The agent that grows with you”,日榜热度高。值得跟进其 memory、skill、tool-use 设计是否与 SkillOS/Skill1 的“技能库演化”路线收敛。
#2. lsdefine / GenericAgent
- 链接:https://github.com/lsdefine/GenericAgent
- 来源:GitHub Trending / GitHub API
- 最近更新:2026-05-09
- 类别:Self-evolving Agent / Skill Tree
- 简述:仓库描述强调 self-evolving agent,从 3.3K 行 seed 生成 skill tree,并声称 token 消耗减少 6x。适合观察工程上如何实现技能增长、技能组织与环境控制。
#3. XiaomiMiMo / MiMo-V2.5-Pro
- 链接:https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro
- 来源:Hugging Face Trending / HF API
- 最近修改:2026-05-08
- 类别:Agent / Long-context / Code / Text Generation
- 简述:HF 标签包含 agent、long-context、code、zh/en、fp8。作为中文/英文长上下文 agent/code 模型,值得测试其在代码 agent 和长轨迹任务中的真实表现。
#4. Zyphra / ZAYA1-8B
- 链接:https://huggingface.co/Zyphra/ZAYA1-8B
- 技术报告:https://arxiv.org/abs/2605.05365
- 来源:Hugging Face Trending / HF API
- 创建:2026-05-04;最近修改:2026-05-08
- 类别:Efficient LLM / Reasoning / Code
- 简述:8.4B total、760M active 的小 MoE reasoning model,README 强调数学与 coding reasoning、适合 test-time compute harness。可作为小模型 agent RL 实验基座。
#5. NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
- 链接:https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
- 来源:Hugging Face Trending / HF API
- 最近修改:2026-05-08
- 类别:Multimodal / Agentic Workflow / Long-context
- 简述:31B total、约 3B active/token,Mamba2-Transformer hybrid MoE,256k context,输入支持 video/audio/image/text,README 明确定位 GUI/agentic workflows、document intelligence、ASR。
#3. 今日最值得精读的 3 篇
- StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
精读理由:它把长轨迹 agent RL 的“高层策略”显式化,是连接 hierarchical RL、latent plan、agent world model 的好入口。
- SkillOS: Learning Skill Curation for Self-Evolving Agents
精读理由:skill curation 是 self-evolving agent 能否长期变强的关键瓶颈;该文把 skill repo 管理变成可 RL 训练的 delayed-feedback 问题。
- LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG
精读理由:与 wenjun 近期关注的 latent-space reasoning 高度相关,且落在 agentic RAG 这个可实验、可度量场景中。
候补:Milestone-Guided Policy Learning for Long-Horizon Language Agents、Teaching LLMs Program Semantics via Symbolic Execution Traces。
#4. 研究机会 / idea
#Idea 1:把 StraTA 的 strategy 变量升级成可学习 world-model latent state
现有 StraTA 主要把 strategy 当作 trajectory-level conditioning signal。可以进一步研究:
- strategy 是否能预测未来 milestone 分布、失败类型、tool-call budget?
- 能否训练一个 lightweight dynamics model:
latent strategy + current observation -> next milestone / value / uncertainty? - 在 agent RL 中,用 imagined strategy rollouts 先筛掉低价值探索,再真实执行。
这会把 LLM Agent RL 往 Dreamer/model-based RL 方向推进。
#Idea 2:技能库不是文本库,而是“可验证转移函数库”
SkillOS/Skill1 的 skill 多半仍是文本经验。对 code agent,可以把 skill 表示成:
- 触发条件:repo 状态 / error trace / failing test pattern;
- 操作模板:修改哪些文件、运行哪些命令;
- 验证器:unit test / static verifier / symbolic execution;
- 失败反例:哪些场景下此 skill 不适用。
这样 skill repo 就更像 model-based RL 里的 option library,每个 option 都有 termination 与 success predictor。
#Idea 3:用 symbolic execution traces 做 code-agent 预训练数据,而不是只做代码补全数据
“Teaching LLMs Program Semantics via Symbolic Execution Traces”提示:少量高质量程序语义轨迹能显著改善 violation detection。可以扩展到 agent 预训练:
- 收集 bug trace -> patch attempt -> verifier feedback -> corrected trace;
- 训练模型预测下一步检查/修改,而非只预测代码 token;
- 与 ASTOR 的 multi-task RL 结合,动态调度 repair、verification、dependency、refactor 等任务。
这比堆更多 GitHub 代码更接近“代码智能能力形成机制”。
#5. 来源访问说明
- Hugging Face Papers 页面可访问,但日期页在周末呈现相同热门列表,因此用 HF 热门作为补充信号,不把其排序等同于严格 24 小时新发。
- arXiv recent 页面可访问;arXiv API 在检索过程中出现过 429,因此改用 arXiv abs/recent 页面逐项核验标题、日期和摘要。
- GitHub Trending 与 GitHub API 可访问,用于 repo 热点核验。
- X/Twitter 未作为事实来源使用;本简报以 arXiv、Hugging Face、GitHub 为主,避免引用不可稳定访问的社交媒体传闻。