每日调研 2026-05-09 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-09 AI/LLM 最新论文与研究热点简报

检索时间：2026-05-09 早上（Asia/Shanghai）。主要覆盖 Hugging Face Daily Papers 2026-05-07 至 2026-05-09、arXiv RSS/API 可访问条目、GitHub/Hugging Face 可访问项目页。arXiv API 在批量查询时出现 429，因此本期主要使用 HF Papers 页面、arXiv RSS 与逐篇 arXiv 页面交叉核验；X/Twitter 未作为主要来源，避免不可访问/动态页面造成的误报。

#0. 今日总览：Agentic RL 和 Code Agent 评测/数据质量同时升温

过去 24-48 小时最值得注意的信号是：LLM Agent 的 RL 论文开始从“给整条轨迹一个 reward”走向更细粒度的技能库、策略抽象、turn-level credit assignment、tree-search rollout informativeness；代码智能方向则集中在多任务 code RL、项目级 test evolution、agent-managed codebase 可维护性，以及训练数据质量如何传导到代码生成缺陷。

这与 wenjun 近期关注的三条主线高度吻合：

LLM model-based / agentic RL：Skill1、SkillOS、StraTA、A²TGPO、InfoTree 都在回答长轨迹 agent 的 credit assignment、探索和经验复用问题。
潜空间/非自回归推理：Continuous Latent Diffusion Language Model 把文本生成拆成“全局语义 latent prior transport + 局部解码”，是 latent-space reasoning/latent generation 的新可读样本。
代码智能与能力形成机制：ASTOR、TEBench、SWE-WebDevBench、BUILD-AND-FIND、From-Data-to-Code 把问题从“能不能生成函数”推进到“能不能训练一个统一 code RL agent，并让它维护真实项目”。

#1. 最重要的 5 条：建议优先精读

#1.1 Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

类别：LLM Agent / Post-training RL / Self-evolving Agent
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06130 / HF Papers
一句话贡献：把 skill selection、skill utilization、skill distillation 三个技能库操作放到同一个 RL policy 里，用统一 task-outcome reward 驱动技能增强 agent 的自我演化。

为什么值得关注：

传统 skill-library agent 常把“检索哪个 skill”“如何用 skill”“如何从轨迹蒸馏新 skill”拆开优化，导致 reward 不一致、模块间互相打架。Skill1 的关键点是把技能库维护看成一个联合决策过程：policy 先生成 query 检索技能库，再重排/选择技能，执行任务，最后从轨迹中蒸馏新 skill；所有学习都来自单一任务结果信号，并试图区分低频趋势对 selection 的贡献、高频变化对 distillation 的贡献。

与 wenjun 研究方向的关系：

这非常接近“agent 预训练数据/经验如何塑造能力”的问题：skill repo 本质上是一个外部化、可编辑的经验分布。可深入追问：如果把 skill distillation 视作一种 online pretraining data curation，那么 RL 信号如何影响技能语料的长期分布？这也可与 model-based RL/Dreamer for Agent 的“世界模型记忆/经验 replay”连接。

#1.2 SkillOS: Learning Skill Curation for Self-Evolving Agents

类别：LLM Agent / Self-evolving Agent / Post-training RL
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06614 / HF Papers
一句话贡献：提出 experience-driven RL recipe，让 trainable skill curator 基于累积经验更新外部 SkillRepo，从间接、延迟反馈中学习长期技能库治理策略。

为什么值得关注：

SkillOS 与 Skill1 形成“同题竞争”：Skill1 统一训练 skill-augmented agent 的选择/使用/蒸馏，SkillOS 更明确把 executor 冻结、把 curator 作为可训练对象，让它学习如何管理外部技能仓库。它把 self-evolving agent 的瓶颈定位为 skill curation：不是有没有经验，而是经验如何被压缩、保留、替换、组织。

与 wenjun 研究方向的关系：

适合作为“自演化代码/通用 agent 的经验库治理”阅读。若 wenjun 做 long-horizon RL，可考虑把 SkillRepo 看成 agent 的可控环境变量：环境不只给 reward，也通过可修改的 skill memory 改变未来任务分布和策略空间。

#1.3 StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

类别：LLM Agent / Agentic RL / Long-horizon Reasoning
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06642 / HF Papers / GitHub
一句话贡献：在长轨迹 agentic RL 中引入显式 trajectory-level strategy，把策略摘要作为高层条件，再用层级 GRPO-style rollout 联合训练 strategy generation 与 action execution。

为什么值得关注：

长轨迹 RL 的难点不只是 reward sparse，而是 agent 很容易变成纯 reactive policy。StraTA 的路线是先从初始任务状态采样 compact strategy，再让后续动作条件化在这个 strategy 上；同时使用 diverse strategy rollout 与 critical self-judgment 改善探索和信用分配。实验场景包括 ALFWorld、WebShop、SciWorld，正好覆盖具身/网页/科学环境。

与 wenjun 研究方向的关系：

这篇可以和 Dreamer/model-based RL 做类比：strategy abstraction 像一个低维 latent plan，不一定显式预测世界状态，但承担“跨时间步压缩决策意图”的作用。值得研究的问题是：trajectory abstraction 能否由 learned world model 产生？是否可以把 strategy 当作 latent variable，在 rollout 前进行 planning/search？

#1.4 A²TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

类别：LLM Agent / Tool-use / Post-training RL / Credit Assignment
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06200 / HF Papers / GitHub
一句话贡献：面向多轮 tool-call agent，把每一轮对最终 ground-truth 概率的 Information Gain 作为内在过程信号，并引入 adaptive turn-level clipping 来稳定 agentic RL。

为什么值得关注：

多轮 agent 只有 trajectory-level outcome reward 时，很难知道哪次检索、哪次工具调用、哪次思考真正有用。A²TGPO 延续“用模型自身概率变化做过程信用”的方向：如果某一轮后，模型对正确答案的概率提高，就把这个 turn 看成产生了信息增益。它的贡献在于尝试把 IG 信号放进 RL training loop，同时处理不同位置 turn 的分布差异和 clipping 问题。

与 wenjun 研究方向的关系：

这篇非常适合对接“长轨迹 RL 的可学习 dense reward”。如果 wenjun 做代码 agent，可以把 unit test pass probability、patch correctness belief、检索证据 sufficiency 等都看成 turn-level IG 的替代信号。

#1.5 Continuous Latent Diffusion Language Model

类别：Latent Reasoning / Diffusion LM / Foundation Model
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06548 / HF Papers / 项目页
一句话贡献：提出 Cola DLM：先用 Text VAE 学 text-to-latent，再用 block-causal DiT 在连续 latent space 建模全局语义 prior，最后条件解码生成文本。

为什么值得关注：

它不是直接在 token 级别做 diffusion，而是把文本生成分解为全局语义组织和局部文本实现。论文称 diffusion 过程是 latent prior transport，而不是 token observation recovery。这对“潜空间推理”尤其重要：如果 reasoning traces 可以先在连续 latent 里完成全局规划，再解码成语言，那么可能绕开自回归 CoT 的 token-by-token 搜索成本。

与 wenjun 研究方向的关系：

可作为 latent-space reasoning 的基础模型侧参考。建议重点看：latent 是否真的承载可操作的推理状态？Text VAE 的瓶颈是否会损害事实细节？block-causal DiT 的结构是否适合长链推理/agent planning？

#2. Agentic RL / Model-based RL / Tool-use 相关论文

#2.1 When to Trust Imagination: Adaptive Action Execution for World Action Models

类别：Model-based RL / World Model / Robotics Agent
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06222 / HF Papers
一句话贡献：把 World Action Model 的执行长度选择建模为 future-reality verification：当想象未来仍可信时多执行，否则提前 replan。

简评：这篇不是 LLM agent，但对 Dreamer-style LLM Agent 有启发：world model rollout 的核心问题不是“能不能想象”，而是“何时相信想象”。LLM Agent 中可类比为：模拟下一步工具结果/用户反馈时，需要一个 verifier 判断 imagined trajectory 与真实环境偏离程度。

#2.2 Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic Reinforcement Learning

类别：Tool-use / Agentic RL / GRPO / Tree Search
来源/日期：arXiv RSS；Submitted 2026-05-06
链接：arXiv:2605.05262
一句话贡献：把固定 rollout budget 下的 rollout informativeness 形式化为注入 GRPO 的非消失 policy-gradient mass，并把中间状态选择转化为单调次模最大化问题。

简评：这篇更理论化，值得看其 RIFB 定义和 UUCB 推导。它的问题意识与实际训练强相关：agentic RL 的 rollout 很贵，预算不该平均撒，而应分配给能产生学习信号的中间状态。

#2.3 Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

类别：Post-training RL / Long-horizon Reasoning / Evaluation
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-07
链接：arXiv:2605.06638 / HF Papers
一句话贡献：提出 ScaleLogic，用可控逻辑系统分离 proof depth 与 logic expressiveness，研究 RL 训练 compute 如何随推理深度和表达能力扩展。

简评：这篇的价值在于给“RL 是否真的教会长程推理”提供可控环境。对 wenjun 来说，重点不是 synthetic logic 本身，而是如何设计可调难度环境来研究 RL 的 scaling law。

#2.4 Internalizing Outcome Supervision into Process Supervision

类别：Post-training RL / Process Supervision / Reasoning
来源/日期：arXiv RSS；Submitted 2026-04-19，近期在 RSS/HF 流中出现
链接：arXiv:2605.05226
一句话贡献：提出把 outcome-only feedback 内化为 fine-grained process supervision 的视角，试图缓解 reasoning RL 的 sparse reward 与 credit assignment。

简评：可与 A²TGPO、InfoTree 组成一组阅读：三者都在问“没有人工 process labels 时，过程监督从哪里来”。

#3. Code Agent / 代码智能 / 软件工程 Agent

#3.1 Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

类别：Code Agent / Post-training RL / RLVR
来源/日期：arXiv RSS；Submitted 2026-05-07
链接：arXiv:2605.06111
一句话贡献：提出 ASTOR，用 task utility 驱动多任务 code RL 的数据调度与校准，目标是在统一模型中学习多个 coding task，而不是为每类任务训练独立专家。

为什么值得关注：

RLVR for coding 已被验证有效，但多任务统一训练会遇到任务间干扰、预算分配和校准问题。ASTOR 的核心是用 utility signal 表示每类任务的学习潜力和跨任务协同，动态分配训练预算。

与 wenjun 研究方向的关系：

这是代码智能后训练最值得跟的一篇。可借鉴它的问题设定研究：不同代码任务（修 bug、补测试、重构、生成 kernel）在 RL 阶段的 reward 分布和学习曲线是否互相帮助？

#3.2 SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

类别：Code Agent / Evaluation / Agentic Coding
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-06
链接：arXiv:2605.04637 / HF Papers / GitHub
一句话贡献：把 vibe coding 平台作为“虚拟软件开发公司”评测，覆盖需求理解、架构决策、生产代码、迭代修改和业务可用性等 68 个指标。

简评：这比传统 HumanEval/SWE-bench 更贴近产品化 agent。值得看其 68 个指标如何拆分 PM/Engineering/Ops 维度，可能对构造代码 agent 长轨迹环境有参考价值。

#3.3 Breaking, Stale, or Missing? Benchmarking Coding Agents on Project-Level Test Evolution

类别：Code Agent / Evaluation / Test Evolution
来源/日期：arXiv RSS；Submitted 2026-05-07
链接：arXiv:2605.06125 / GitHub
一句话贡献：提出 TEBench，要求 coding agent 在项目级 commit 变化后自动定位需修改/新增的测试并生成 test patch。

简评：测试演化是代码 agent 从“写代码”走向“维护软件”的关键任务。它比单函数修复更能暴露 repository understanding、impact analysis 和 long-context 能力。

#3.4 BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases

类别：Code Agent / Evaluation / Agent-managed Codebase
来源/日期：arXiv RSS；Submitted 2026-05-07
链接：arXiv:2605.06136
一句话贡献：评测一个 agent 生成的代码库是否便于后续 agent 理解、审计和扩展，把生成仓库视为给未来 agent 的 communication artifact。

简评：很有意思的评测视角：不只看当前代码能不能跑，还看未来 agent 能否从仓库中恢复设计意图。这可对应“agent 生成物如何塑造后续 agent 能力/上下文”。

#3.5 ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

类别：Code Intelligence / Program Synthesis / Test-time Scaling
来源/日期：arXiv RSS；Submitted 2026-05-06
链接：arXiv:2605.05485
一句话贡献：用 coding agent 把少量 LLM reasoning traces 编译成可复用 symbolic program synthesizer，在测试时零 LLM 调用并显著提升 hard synthesis 任务表现。

简评：这是“把推理轨迹蒸馏为外部工具/solver”的强样本，可与 Skill1/SkillOS 的 skill distillation 对读：skill 不一定是自然语言，也可以是可执行 solver。

#4. Retrieval / Context Compression / Agent Search

#4.1 Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

类别：LLM Agent / Retrieval / Agentic Search
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-03
链接：arXiv:2605.05242 / HF Papers / GitHub / HF Demo
一句话贡献：批评固定 top-k 相似度检索对 agentic search 的限制，提出 Direct Corpus Interaction，让 agent 直接以通用操作搜索原始语料。

简评：与“通用上下文压缩器”和 agent search 强相关。核心判断是：agent 任务需要精确词法约束、稀疏线索组合、局部上下文检查和多步假设修正，单次 top-k 检索会过早丢证据。

#4.2 Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

类别：Retrieval / Agentic Search / Evaluation
来源/日期：Hugging Face Daily Papers / arXiv RSS；Submitted 2026-05-05
链接：arXiv:2605.04018 / HF Papers / GitHub
一句话贡献：提出 BRIGHT-Pro，扩展 reasoning-intensive retrieval 的多方面 gold evidence，并在 static 与 agentic search protocol 下评测 retriever。

简评：如果要做 Deep Research / Search Agent，retriever 不应只优化单 passage relevance，而应优化 evidence portfolio construction。这与 DCI-Agent 是互补的：一个改接口，一个改评测和训练数据。

#4.3 LCM: Lossless Context Management

类别：Context Compression / Code Agent / Long-context
来源/日期：arXiv RSS；Submitted 2026-02-14，近期在 RSS 中出现
链接：arXiv:2605.04050
一句话贡献：提出 deterministic LLM memory 架构，通过 recursive context compression 和 lossless pointers 管理长上下文，并报告在 OOLONG long-context coding agent eval 上优于 Claude Code。

简评：需谨慎看待性能 claim，但方向值得跟：上下文压缩不只是摘要，而是“可追溯的压缩 DAG + 原文指针”。对代码 agent 来说，这比单纯扩大 context window 更可控。

#4.4 AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop RAG

类别：RAG / Context Budget / Multi-hop Reasoning
来源/日期：arXiv RSS；Submitted 2026-05-04
链接：arXiv:2605.05245 / GitHub
一句话贡献：把多跳 RAG 的证据选择建模为 token-constrained repair problem，使用 gap tracking、micro-query 和 utility selection 修补缺失桥接事实。

简评：适合与 DCI/BRIGHT-Pro 一起看，代表“检索不是相似度排序，而是面向推理缺口的主动证据组装”。

#5. 训练数据、持续学习与基础模型训练机制

#5.1 Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

类别：Pretraining Data / Continual Learning / Training Mechanism
来源/日期：arXiv RSS；Submitted 2026-04-19，近期出现
链接：arXiv:2605.05227
一句话贡献：把数据整理从离线过滤/混合转为训练中的 online reweighting，用动态 per-sample learning rate 调整样本重要性。

为什么值得关注：

离线 data curation 在模型/任务变化时容易失效，也可能牺牲多样性。online reweighting 更像“训练过程中的持续数据选择”，适合研究数据质量如何随模型状态动态变化。

与 wenjun 研究方向的关系：

这能连接“预训练数据质量/去重/代码数据质量”和“能力形成机制”：样本价值不是静态属性，而依赖当前模型表征、loss landscape 和目标能力。

#5.2 Bridging Generation and Training: A Systematic Review of Quality Issues in LLMs for Code

类别：Code Intelligence / Pretraining Data / Survey
来源/日期：arXiv RSS；Submitted 2026-05-06
链接：arXiv:2605.05267 / GitHub
一句话贡献：综述 114 篇研究，建立从训练数据质量问题到代码生成缺陷的 taxonomy 和 18 类传播机制。

为什么值得关注：

代码模型的生成缺陷常被归因于模型能力不足，但这篇把 root cause 指向训练语料质量，并系统化“数据问题如何传导成代码缺陷”。

与 wenjun 研究方向的关系：

适合做代码数据质量研究的入口文献。可进一步问：哪些 data quality issue 最影响 agentic coding，而不是单次 code generation？比如 stale API、缺失测试、低质量 README、重复模板等。

#5.3 Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization

类别：Training Mechanism / Diagnostics / Foundation Model
来源/日期：arXiv RSS；Submitted 2026-05-07
链接：arXiv:2605.05683
一句话贡献：用 activation covariance 与 per-sample gradient SVD spectra 诊断 LLM 训练内部表征，发现 batch size 等因素会在同等 loss 下产生不同表征几何。

简评：这是“训练 loss/throughput 掩盖内部机制”的一类工作。若 wenjun 关心基础模型能力形成，可把 spectral diagnostics 作为理解数据混合、batch size、curriculum 对表示几何影响的工具。

#5.4 Prescriptive Scaling Laws for Data Constrained Training

类别：Scaling Law / Data-constrained Training
来源/日期：Hugging Face Daily Papers；arXiv，Submitted 2026-05-02 左右（HF 2026-05-09 收录）
链接：arXiv:2605.01640 / HF Papers
一句话贡献：面向数据受限训练给出 prescriptive scaling law，用于指导 compute/data 受限时的训练配置。

简评：建议作为背景跟踪，不是本期最贴 agent，但与“高质量数据不足时如何训练基础模型”相关。

#6. 其他值得扫读的论文/动态

标题	类别	来源/日期	链接	一句话核心贡献
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games	LLM Agent / Evaluation	arXiv 2026-05-05	arXiv:2605.04312	用多智能体游戏构造动态 benchmark，缓解静态榜单饱和与污染。
When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration	Multi-Agent / Context Engineering	arXiv 2026-05-05	arXiv:2605.04361	在多 agent 软件设计中发现“更多上下文不总是更好”，上下文可能提升也可能降低探索。
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels	Code Intelligence / Systems	HF Papers 2026-05-09	arXiv:2605.04956 / GitHub	扩展 LLM 生成 GPU kernel 的评测维度，适合关注 code+systems 的模型能力。
The Scaling Properties of Implicit Deductive Reasoning in Transformers	Reasoning / Mechanism	HF Papers 2026-05-09	arXiv:2605.04330	研究 Transformers 在 Horn clauses 隐式演绎推理上的 scaling properties。
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO	Post-training RL / GRPO	HF Papers 2026-05-09	arXiv:2605.04077	分析并修复 GRPO 聚合偏差，适合作为 RLVR/GRPO 方法论背景。
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents	Multimodal Agent / Agentic RL	arXiv 2026-05-06	arXiv:2605.05185 / GitHub	开源多模态 deep search agent 的数据构造、SFT/RL 训练 recipe。
BioTool: A Comprehensive Tool-Calling Dataset for Biomedical LLMs	Tool-use / Dataset	HF Papers 2026-05-09	arXiv:2605.05758 / GitHub	面向生物医学领域的 tool-calling 数据集，用于提升专业工具使用能力。
An Empirical Study of Proactive Coding Assistants in Real-World Software Development	Code Agent / Intent Understanding	arXiv 2026-05-07	arXiv:2605.05700	研究主动式 coding assistant 如何从 IDE 行为和 repo context 推断开发者潜在意图。
DADL: A Declarative Description Language for Enterprise Tool Libraries in LLM Agent Systems	Tool-use / MCP / Systems	arXiv 2026-05-04	arXiv:2605.05247	用声明式 API 描述语言缓解企业级 MCP tool library 的部署和 context 膨胀问题。
Parness: A Paper Harness for End-to-End Automated Scientific Research	Research Agent	arXiv 2026-05-06	arXiv:2605.05258 / GitHub	面向自动科研 agent 的动态 workflow、全文索引与跨运行知识积累框架。

#7. 今日最值得精读的 3 篇

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

链接：https://arxiv.org/abs/2605.06130

理由：最贴近“agent 经验/技能如何通过 RL 自演化”，可作为 self-evolving agent 主线入口。

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

链接：https://arxiv.org/abs/2605.06642

理由：把长轨迹 agentic RL 的高层 strategy 抽象显式化，适合连接 latent planning / model-based RL。

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

链接：https://arxiv.org/abs/2605.06111

理由：代码 RLVR 从单任务专家走向统一多任务训练，是 code agent 后训练的关键问题。

备选精读：Continuous Latent Diffusion Language Model（如果今天更想看 latent reasoning / latent generation）。

#8. 今日最值得跟进的 3 个 repo / model / dataset

StraTA：<https://github.com/xxyQwQ/StraTA>

关注点：是否开源训练脚本、ALFWorld/WebShop/SciWorld 环境适配、hierarchical GRPO rollout 细节。

DCI-Agent-Lite / DCI-Agent demo / eval logs：

- GitHub：<https://github.com/DCI-Agent/DCI-Agent-Lite>

- Demo：<https://huggingface.co/spaces/DCI-Agent/demo>

- Logs：<https://huggingface.co/datasets/DCI-Agent/eval-logs>

关注点：direct corpus interaction 的实际操作空间、与标准 retriever/RAG 的差异、能否迁移到 paper/codebase search。

TEBench：<https://github.com/iSEngLab/TEBench>

关注点：项目级 test evolution 任务构造、Defects4J 实例、是否适合作为 code agent long-horizon RL 环境。

可额外关注：

SWE-WebDevBench：<https://github.com/snowmountainAi/webdevbench>
OpenSearch-VL：<https://github.com/shawn0728/OpenSearch-VL>
From-Data-to-Code：<https://github.com/SYSUSELab/From-Data-to-Code>
AdaGATE：<https://github.com/eliguo/AdaGATE>

#9. 研究机会 / Ideas

#Idea 1：把 skill library 视作“可训练的数据分布”，研究 agentic RL 中的 online data curation

Skill1/SkillOS 与 ADAPT 可以合在一起看：skill repo、trajectory memory、代码片段库本质上都是 agent 未来训练/推理会消费的数据分布。可以提出一个问题：

在 long-horizon LLM Agent 中，哪些经验应该被保留为 skill，哪些应该被遗忘/合并/重写？这个过程能否用 online reweighting 或 RL credit assignment 学出来？

可能实验：在 WebShop/SWE-bench-lite/自建代码修复环境中，让 agent 不断积累技能；比较人工规则、embedding 去重、outcome-only RL curator、process-IG curator 对长期 performance 和 memory bloat 的影响。

#Idea 2：把 trajectory-level strategy abstraction 与 world model verifier 结合

StraTA 负责生成高层 strategy，WAM verifier 负责判断 imagined future 何时失效。对 LLM Agent 可提出：

先生成 latent/文本 strategy，再通过 lightweight verifier 在每轮工具调用后判断当前真实观测是否仍支持原 strategy；若偏离则 replan。

这就是语言 agent 版的“when to trust imagination”。可用于 code agent：先生成 bug-fix plan，执行若干编辑/测试后，verifier 判断计划是否仍成立，避免盲目沿错误方向滚动。

#Idea 3：面向代码 agent 的“上下文不是越多越好”系统研究

When Context Hurts、LCM、DCI、TEBench 可以组成一个研究问题：

对 repository-level coding agent，哪些上下文会提升任务表现，哪些上下文会诱导错误收敛？能否学习一个 context controller，根据任务阶段主动选择/压缩/屏蔽上下文？

实验设计：在项目级 test evolution 或 bug fixing 中构造不同 context injection 条件（README、历史 issue、相关测试、无关文件、压缩摘要、原文指针），观察探索多样性、修复正确率、token 成本和后续 agent 可理解性。

#10. 来源与访问限制说明

Hugging Face Papers 页面可访问，并用于获取 2026-05-07 至 2026-05-09 的热门论文列表。
arXiv 批量 API 查询出现 HTTP 429，因此本期采用 arXiv RSS 与逐篇 arXiv 页面核验标题、日期、摘要和链接。
Semantic Scholar API 本次返回 429，未用于最终结论。
X/Twitter 未作为事实来源；本期用 arXiv、HF Papers、GitHub、Hugging Face datasets/models 等可访问来源替代。
GitHub 搜索中存在大量低星/自动生成仓库，本期只把与论文绑定或数据集/benchmark 明确的 repo 放入“值得跟进”。