#2026-05-10 AI/LLM 最新论文与研究热点简报
检索时间:2026-05-10 08:00 Asia/Shanghai。主要覆盖 Hugging Face Daily Papers 2026-05-08 榜单与 arXiv 2026-05-03 至 2026-05-07 新提交论文,并补充 GitHub API 中近期 push 的相关 repo。arXiv API 本次批量查询触发 429,因此改用 arXiv abs 页面逐篇抽取元数据;X/Twitter 未作为事实来源,避免不可验证信息。
#0. 今日判断
今天最集中的信号是:Agentic RL 正在从“轨迹级稀疏奖励 + 反应式行动”转向“技能库、策略抽象、turn-level credit、长期记忆/技能整理”。这正好贴合 wenjun 关心的 LLM Agent、model-based / long-horizon RL、自演化代码 Agent 与 agent 预训练数据如何塑造能力。
另一个信号是:latent reasoning 不只停留在“隐向量思考”的概念层面,而开始与 continuous latent diffusion LM、implicit deductive reasoning、token identity injection、global activation signature 等基础模型结构问题相遇。短期可把它看成两条路线:一条是生成范式从 token AR 转向 continuous latent / diffusion;另一条是把推理能力解释为 transformer 内部可扩展的隐式演绎机制。
#1. 最重要的 5 条
#1. Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
- 链接:https://arxiv.org/abs/2605.06130
- 来源 / 日期:arXiv cs.AI,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:LLM Agent / Post-training RL / Tool-use / Self-evolving Agent
- 一句话核心贡献:把技能选择、技能使用、经验蒸馏成新技能三件事,统一到一个由任务结果奖励驱动的 RL policy 中。
为什么值得关注: 这篇像“Agent 版持续学习最小闭环”:检索 skill -> 用 skill 解题 -> 从 trajectory 再蒸馏 skill。它把 skill library 从静态提示库推进到可学习、可演化的外部记忆。摘要称在 ALFWorld 和 WebShop 上超过 prior skill-based 与 RL baseline,并用训练动态证明三种能力共同演化。
与 wenjun 的关系: 对“agent 预训练数据如何塑造能力”和“通过环境设计催生自演化智能”都很相关。一个可深挖点是:skill library 中的 skill 是否可以被看成 model-based RL 的 abstract option / latent world model fragment?代码 Agent 的修复模式、debug 策略、测试模板也可以作为 skill 被长期维护。
#2. SkillOS: Learning Skill Curation for Self-Evolving Agents
- 链接:https://arxiv.org/abs/2605.06614
- 来源 / 日期:arXiv cs.AI/cs.CL,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:LLM Agent / Continual Learning / Self-evolving Agent / Memory
- 一句话核心贡献:提出 experience-driven RL recipe,训练一个 skill curator 去维护外部 SkillRepo,让 frozen executor 在流式任务中持续复用与改写技能。
为什么值得关注: Skill1 更强调 unified policy;SkillOS 更强调“技能整理/策展”本身是长期信用分配问题:早期任务的轨迹更新 SkillRepo,后续相关任务评估更新是否有效。摘要中特别提到学到的 SkillRepo 会逐渐形成更结构化的 Markdown meta-skills,这对实际 Agent 系统工程很有启发。
与 wenjun 的关系: 这与长期轨迹 RL、agent memory、self-evolving code agent 完全重合。可以把 SkillOS 的 grouped task streams 迁移到代码环境:一组 issue / bug / benchmark 共享某类 skill dependency,只有后续任务变好,才说明 earlier skill curation 是正反馈。
#3. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
- 链接:https://arxiv.org/abs/2605.06642
- Repo:https://github.com/xxyQwQ/StraTA
- 来源 / 日期:arXiv cs.CL/cs.AI,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:LLM Agent / Post-training RL / Long-horizon RL / Strategic Planning
- 一句话核心贡献:在 agentic RL 中显式采样“轨迹级策略”,让后续行动条件化在 compact strategy 上,并用 hierarchical GRPO-style rollout 联合训练策略生成与行动执行。
为什么值得关注: 这是对当前 agentic RL 痛点的直接回应:只用 trajectory outcome reward 时,探索与 credit assignment 都弱;完全反应式 action policy 很难跨长 horizon。StraTA 把 trajectory abstraction 作为中间变量,报告 ALFWorld 93.1%、WebShop 84.2%、SciWorld 63.5 overall score。
与 wenjun 的关系: 这可视为 LLM Agent 的 option / plan latent 路线,和 model-based RL / Dreamer 的 latent imagination 有天然连接:先生成 compact strategy,再用它约束 action rollout。值得精读方法部分,看 strategy 是否只是自然语言 plan,还是可进一步压缩成 latent state / value-bearing representation。
#4. A2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
- 链接:https://arxiv.org/abs/2605.06200
- Repo:https://github.com/CuSO4-Chen/A-TGPO
- 来源 / 日期:arXiv cs.CL,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:LLM Agent / Post-training RL / Credit Assignment / Tool-use
- 一句话核心贡献:针对多轮工具调用中单个 turn 的贡献难评估问题,用 Information Gain 作为内在过程信号,并设计 turn-group normalization、variance-rescaled accumulation 与 adaptive turn-level clipping。
为什么值得关注: RLVR / GRPO 在 agent 任务上最大的困难是稀疏 outcome reward 不告诉你哪次 tool call 有用。A2TGPO 的关键不是再训练一个 process reward model,而是利用 policy 对 ground-truth 概率的 per-turn change 作为 intrinsic signal,降低额外 evaluator 成本。
与 wenjun 的关系: 对代码 Agent 特别实用:一次代码修改、一次测试、一次 grep、一次定位 bug 都是 turn。若能给每个 turn 分配 IG-like 信号,就可能训练“少走弯路”的 agent,而不只是最后 pass/fail。
#5. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
- 链接:https://arxiv.org/abs/2605.06638
- 来源 / 日期:arXiv cs.AI/cs.CL,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:Post-training RL / Evaluation / Long-horizon Reasoning / Training Mechanism
- 一句话核心贡献:提出 ScaleLogic,把推理难度拆成 proof-planning depth 与 logic expressiveness 两个轴,发现 RL training compute 与 reasoning depth 呈 power law,且逻辑表达力越强 scaling exponent 越高。
为什么值得关注: 这篇把“RL 能不能教长程推理”从 benchmark 分数拉回可控环境。它的结论强调:不是只增加 RL compute,而是训练环境的表达力决定下游迁移与计算效率。摘要称 expressive training 带来最高 +10.66 points 下游提升,curriculum 可改善 scaling efficiency。
与 wenjun 的关系: 对“环境设计催生自演化智能”很关键。它给出一个可实验化问题:Agent 环境的 expressiveness 是否也有类似 scaling law?例如 WebShop/ALFWorld/SWE-bench 的任务语法、工具组合、状态可观测性,是否决定 agentic RL 的长程迁移能力。
#2. 其他值得扫读的论文 / 动态
#6. Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes
- 链接:https://arxiv.org/abs/2605.05724
- Repo:https://github.com/cxcscmu/Auto-Research-Recipes
- 来源 / 日期:arXiv cs.MA/cs.AI,Submitted on 2026-05-07
- 类别:LLM Agent / Code Agent / Auto Research / Training Recipes
- 一句话核心贡献:把 auto research 设为闭环:hypothesis、可执行 code edit、外部 evaluator outcome、feedback,再由 specialist agents 迭代训练 recipe。
- 判断:这比“自动写论文”更接近可审计科研自动化。摘要报告 1,197 headline-run trials 与 600 Parameter Golf control trials,agent 能利用 crash、budget overrun、accuracy-gate miss 等失败信号做后续程序级 recipe edits。
#7. Continuous Latent Diffusion Language Model
- 链接:https://arxiv.org/abs/2605.06548
- 来源 / 日期:arXiv cs.CL,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:Latent Reasoning / Foundation Model Architecture / Diffusion LM
- 一句话核心贡献:提出 Cola DLM:Text VAE 学 text-to-latent,block-causal DiT 建模 continuous latent global semantic prior,再 conditional decoding 生成文本。
- 判断:它不是直接解决 Agent 推理,但对“潜空间推理”很重要:若语言生成可先在连续 latent 里做 global semantic transport,再解码成文本,那么 long-horizon planning / hidden thought 可能不必绑定 token-by-token CoT。
#8. Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
- 链接:https://arxiv.org/abs/2605.05242
- 来源 / 日期:arXiv cs.IR,Submitted on 2026-05-03;HF Daily Papers 2026-05-08
- 类别:LLM Agent / Retrieval / Tool-use
- 一句话核心贡献:指出传统 top-k lexical/semantic retrieval 对 agentic search 是瓶颈,agent 需要直接与 corpus 多步交互以处理精确约束、稀疏线索组合与局部上下文验证。
- 判断:对研究型 Agent 和代码 Agent 都重要。代码搜索经常不是“语义相似 top-k”,而是多步假设验证:符号、调用链、测试失败、局部上下文必须被反复交互式收窄。
#9. KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels
- 链接:https://arxiv.org/abs/2605.04956
- Repo:https://github.com/BonnieW05/KernelBenchX
- 来源 / 日期:arXiv cs.LG,Submitted on 2026-05-06
- 类别:Code Intelligence / Systems / Evaluation
- 一句话核心贡献:提出 176 个任务、15 个类别的 LLM 生成 Triton/GPU kernel benchmark,分析 correctness 与硬件效率的失效边界。
- 判断:对代码智能从“写 Python”走向“写高性能系统代码”很关键。摘要称 task structure 比 method design 更决定 correctness,Fusion 类任务 72% 在五种方法上全失败。
#10. Prescriptive Scaling Laws for Data Constrained Training
- 链接:https://arxiv.org/abs/2605.01640
- 来源 / 日期:arXiv cs.LG,Submitted on 2026-05-02;HF Daily Papers 2026-05-08
- 类别:Pretraining Data / Scaling Law / Foundation Model Training
- 一句话核心贡献:在高质量数据受限时,给 Chinchilla 式 scaling law 加入重复数据导致的 overfitting penalty,提出更具处方性的 compute allocation 建议。
- 判断:对基础模型训练机制非常相关:当 unique high-quality tokens 不够时,盲目重复会适得其反,算力可能更应投向 model capacity。这也会影响代码数据去重与持续预训练策略。
#11. Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
- 链接:https://arxiv.org/abs/2605.04077
- 来源 / 日期:arXiv cs.LG,Submitted on 2026-04-14;HF Daily Papers 2026-05-08
- 类别:Post-training RL / RLVR / Training Mechanics
- 一句话核心贡献:分析 GRPO 中 token-level policy gradient 在 group 内聚合的偏置,指出 token aggregation 与 sequence aggregation 分别引入 sign-length coupling 或下调长回答权重。
- 判断:如果 wenjun 做 agentic RL 或长轨迹 RL,这类“看似实现细节”的 aggregation bias 很可能直接影响长答案、长轨迹与多工具调用的优化稳定性。
#12. TIDE: Every Layer Knows the Token Beneath the Context
- 链接:https://arxiv.org/abs/2605.06216
- 来源 / 日期:arXiv cs.CL,Submitted on 2026-05-07
- 类别:Foundation Model Architecture / Token Representation / Pretraining Mechanism
- 一句话核心贡献:挑战“token index 只在 input embedding 注入一次”的默认设计,提出在 transformer 层中持续保留 token identity,以缓解 rare token under-training 与 contextual collapse。
- 判断:对代码模型尤其值得看。代码里的 rare identifier、API、符号名很多,若 token identity 在深层被上下文淹没,模型可能更难稳定处理长尾符号。
#13. The Scaling Properties of Implicit Deductive Reasoning in Transformers
- 链接:https://arxiv.org/abs/2605.04330
- 来源 / 日期:arXiv cs.AI,Submitted on 2026-05-05
- 类别:Latent Reasoning / Mechanistic Understanding / Evaluation
- 一句话核心贡献:研究 transformer 在 Horn clauses 上的隐式演绎 scaling,发现足够深、带 bidirectional prefix mask 的模型在某些设置中可接近显式 CoT,但 depth extrapolation 仍需要 CoT。
- 判断:这是 latent reasoning 的一个更可控版本:模型是否能在 hidden states 中完成演绎,而不显式写出 CoT?结论也提醒:隐式推理未必能自然外推到更深 proof depth。
#14. EMO: Pretraining Mixture of Experts for Emergent Modularity
- 链接:https://arxiv.org/abs/2605.06663
- 来源 / 日期:arXiv cs.CL/cs.LG,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:Foundation Model Training / MoE / Emergent Modularity
- 一句话核心贡献:关注 MoE 预训练中的 emergent modularity,试图让专家池形成更有结构的功能分化。
- 判断:对“能力形成机制”有价值。MoE 的 expert specialization 是否可解释为一种训练数据诱导的能力模块化,是后续 agent 专家化、tool 专家化的基础问题。
#15. MiA-Signature: Approximating Global Activation for Long-Context Understanding
- 链接:https://arxiv.org/abs/2605.06416
- 来源 / 日期:arXiv,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:Long Context / Context Compression / Mechanistic Signal
- 一句话核心贡献:用近似 global activation signature 的方式增强长上下文理解。
- 判断:与通用上下文压缩器相关。若能把长上下文压缩为 activation-level signature,而非纯文本摘要,可能对 Agent 记忆与长期任务状态更有用。
#16. Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
- 链接:https://arxiv.org/abs/2605.05566
- 来源 / 日期:arXiv,Submitted on 2026-05-07;HF Daily Papers 2026-05-08
- 类别:Reasoning / Test-time Scaling / Exploration
- 一句话核心贡献:通过 prompt space perturbation 扩展 reasoning exploration,甚至“无意义扰动”也可能帮助跳出固定推理路径。
- 判断:可与 agentic RL 的 exploration 相连:对长轨迹 Agent,探索不一定只发生在 action space,也可能发生在 prompt/strategy/latent plan space。
#3. 近期 repo / model / dataset 值得跟进
#1. AgentR1/Agent-R1
- 链接:https://github.com/AgentR1/Agent-R1
- 来源 / 日期:GitHub API,pushed 2026-05-09;约 1.4k stars(检索时)
- 类别:LLM Agent / Post-training RL
- 核心信息:项目描述为 “Training Powerful LLM Agents with End-to-End Reinforcement Learning”。
- 为什么跟进:这是近期 agent end-to-end RL 开源实现中热度较高的一项,适合对比 Skill1 / SkillOS / StraTA 的训练接口与环境抽象。
#2. Agent-One-Lab/AgentFly
- 链接:https://github.com/Agent-One-Lab/AgentFly
- 来源 / 日期:GitHub API,pushed 2026-05-06
- 类别:LLM Agent / RL Infrastructure
- 核心信息:项目描述为 “Scalable and extensible reinforcement learning for LM agents.”
- 为什么跟进:如果 wenjun 要做 agentic RL 实验,AgentFly 可能提供可复用的 rollout、环境、reward 与 trainer 框架。
#3. WillDreamer/T2PO
- 链接:https://github.com/WillDreamer/T2PO
- 来源 / 日期:GitHub API,pushed 2026-05-09
- 类别:LLM Agent / Multi-turn RL / Exploration
- 核心信息:项目描述为 “T2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning”。
- 为什么跟进:关键词“uncertainty-guided exploration control”与 model-based RL / Dreamer 中 uncertainty、imagination rollout 的思想相邻,值得看是否能提供稳定多轮 agentic RL 的工程 recipe。
#4. Context-Engine-AI/Context-Engine
- 链接:https://github.com/Context-Engine-AI/Context-Engine
- 来源 / 日期:GitHub API,pushed 2026-05-02
- 类别:Context Compression / Agent Memory / MCP
- 核心信息:项目描述为 “Context-Engine MCP - Agentic Context Compression Suite”。
- 为什么跟进:上下文压缩从单纯 summarization 走向 MCP/agent middleware,可能成为代码 Agent 长任务的基础设施。
#5. chopratejas/headroom
- 链接:https://github.com/chopratejas/headroom
- 来源 / 日期:GitHub API,pushed 2026-05-09;约 1.7k stars(检索时)
- 类别:Context Optimization / LLM Application Infrastructure
- 核心信息:项目描述为 “The Context Optimization Layer for LLM Applications”。
- 为什么跟进:如果要做长轨迹 Agent,context budget 调度、压缩、缓存与信息保真会变成核心系统问题。
#4. 今日最值得精读的 3 篇
- StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
理由:最贴近 long-horizon agentic RL;strategy abstraction 可连接 Dreamer / model-based RL 的 latent plan。
- SkillOS: Learning Skill Curation for Self-Evolving Agents
理由:把 agent 自演化的核心瓶颈放在 skill curation 与 delayed feedback 上,适合迁移到代码 Agent / 长期记忆。
- Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
理由:给“环境表达力影响 RL 推理迁移”一个可控实验框架,对设计 agent 训练环境很有启发。
备选精读:如果今天更关注基础模型机制,可把第 3 篇换成 Continuous Latent Diffusion Language Model 或 Prescriptive Scaling Laws for Data Constrained Training。
#5. 今日最值得跟进的 3 个 repo/model/dataset
- StraTA repo:https://github.com/xxyQwQ/StraTA
看 hierarchical GRPO rollout、strategy 采样、critical self-judgment 的实现细节。
- A2TGPO repo:https://github.com/CuSO4-Chen/A-TGPO
看 turn-level IG 信号如何计算、归一化与进入 clipping,对多工具调用训练很实用。
- Auto-Research-Recipes repo:https://github.com/cxcscmu/Auto-Research-Recipes
看如何记录 proposal、code diff、evaluator feedback、failure labels;这可能是科研 Agent 可审计闭环的工程模板。
#6. 研究机会 / idea
#Idea 1:把“strategy abstraction”升级为 model-based Agent 的 latent state
StraTA 里的 compact strategy 目前看起来更像自然语言或结构化 plan。可以追问:能否训练一个 latent strategy/state,用来预测后续 tool outcome、失败概率、reward-to-go?这会把 agentic RL 与 Dreamer-style world model 接起来:不是只在 token 空间采样 plan,而是在 latent dynamics 中 imagination,再决定真实 tool action。
#Idea 2:代码 Agent 的 skill curation benchmark
Skill1 / SkillOS 都证明 skill library 不是静态 prompt store,而是可训练对象。可以构造一个代码任务流:同类 bug、相似 API 迁移、重复测试失败模式、性能优化模板。评价不是单题 pass,而是前面任务产生的 skill 是否提高后续任务效率、减少工具调用、降低 token 成本。这个 benchmark 会非常贴近 self-evolving code agent。
#Idea 3:Agent 环境 expressiveness scaling law
ScaleLogic 把 reasoning depth 与 logic expressiveness 解耦。类似地,Agent 环境也可定义两个轴:horizon length 与 action/state expressiveness。例如只读检索、可编辑文件、可运行测试、可调用 debugger、可修改环境这几种 expressiveness 是否改变 RL compute scaling exponent?这可能成为“为什么某些环境能催生自演化智能”的实证入口。
#7. 检索与可靠性说明
- Hugging Face Daily Papers 页面可访问,并解析到 2026-05-08 的 38 条 daily papers。
- arXiv abs 页面可访问;arXiv API 在批量查询时返回 429,因此未使用 API 结果。
- GitHub API 可访问,用关键词检索了 agentic RL、code agent RL、latent reasoning、context compression、self-evolving agent 等 pushed after 2026-05-01 的项目。
- X/Twitter 没有作为本次事实来源;若需要社媒热点,建议后续单独人工核验原帖,避免引用不可访问或不可复现的动态。