#2026-05-09 AI/LLM 最新论文与研究热点简报
检索时间:2026-05-09 早上(Asia/Shanghai)。主要覆盖 Hugging Face Daily Papers 2026-05-07 至 2026-05-09、arXiv RSS/API 可访问条目、GitHub/Hugging Face 可访问项目页。arXiv API 在批量查询时出现 429,因此本期主要使用 HF Papers 页面、arXiv RSS 与逐篇 arXiv 页面交叉核验;X/Twitter 未作为主要来源,避免不可访问/动态页面造成的误报。
#0. 今日总览:Agentic RL 和 Code Agent 评测/数据质量同时升温
过去 24-48 小时最值得注意的信号是:LLM Agent 的 RL 论文开始从“给整条轨迹一个 reward”走向更细粒度的技能库、策略抽象、turn-level credit assignment、tree-search rollout informativeness;代码智能方向则集中在多任务 code RL、项目级 test evolution、agent-managed codebase 可维护性,以及训练数据质量如何传导到代码生成缺陷。
这与 wenjun 近期关注的三条主线高度吻合:
- LLM model-based / agentic RL:Skill1、SkillOS、StraTA、A²TGPO、InfoTree 都在回答长轨迹 agent 的 credit assignment、探索和经验复用问题。
- 潜空间/非自回归推理:Continuous Latent Diffusion Language Model 把文本生成拆成“全局语义 latent prior transport + 局部解码”,是 latent-space reasoning/latent generation 的新可读样本。
- 代码智能与能力形成机制:ASTOR、TEBench、SWE-WebDevBench、BUILD-AND-FIND、From-Data-to-Code 把问题从“能不能生成函数”推进到“能不能训练一个统一 code RL agent,并让它维护真实项目”。
#1. 最重要的 5 条:建议优先精读
#1.1 Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
- 类别:LLM Agent / Post-training RL / Self-evolving Agent
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06130 / HF Papers
- 一句话贡献:把 skill selection、skill utilization、skill distillation 三个技能库操作放到同一个 RL policy 里,用统一 task-outcome reward 驱动技能增强 agent 的自我演化。
为什么值得关注:
传统 skill-library agent 常把“检索哪个 skill”“如何用 skill”“如何从轨迹蒸馏新 skill”拆开优化,导致 reward 不一致、模块间互相打架。Skill1 的关键点是把技能库维护看成一个联合决策过程:policy 先生成 query 检索技能库,再重排/选择技能,执行任务,最后从轨迹中蒸馏新 skill;所有学习都来自单一任务结果信号,并试图区分低频趋势对 selection 的贡献、高频变化对 distillation 的贡献。
与 wenjun 研究方向的关系:
这非常接近“agent 预训练数据/经验如何塑造能力”的问题:skill repo 本质上是一个外部化、可编辑的经验分布。可深入追问:如果把 skill distillation 视作一种 online pretraining data curation,那么 RL 信号如何影响技能语料的长期分布?这也可与 model-based RL/Dreamer for Agent 的“世界模型记忆/经验 replay”连接。
#1.2 SkillOS: Learning Skill Curation for Self-Evolving Agents
- 类别:LLM Agent / Self-evolving Agent / Post-training RL
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06614 / HF Papers
- 一句话贡献:提出 experience-driven RL recipe,让 trainable skill curator 基于累积经验更新外部 SkillRepo,从间接、延迟反馈中学习长期技能库治理策略。
为什么值得关注:
SkillOS 与 Skill1 形成“同题竞争”:Skill1 统一训练 skill-augmented agent 的选择/使用/蒸馏,SkillOS 更明确把 executor 冻结、把 curator 作为可训练对象,让它学习如何管理外部技能仓库。它把 self-evolving agent 的瓶颈定位为 skill curation:不是有没有经验,而是经验如何被压缩、保留、替换、组织。
与 wenjun 研究方向的关系:
适合作为“自演化代码/通用 agent 的经验库治理”阅读。若 wenjun 做 long-horizon RL,可考虑把 SkillRepo 看成 agent 的可控环境变量:环境不只给 reward,也通过可修改的 skill memory 改变未来任务分布和策略空间。
#1.3 StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
- 类别:LLM Agent / Agentic RL / Long-horizon Reasoning
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06642 / HF Papers / GitHub
- 一句话贡献:在长轨迹 agentic RL 中引入显式 trajectory-level strategy,把策略摘要作为高层条件,再用层级 GRPO-style rollout 联合训练 strategy generation 与 action execution。
为什么值得关注:
长轨迹 RL 的难点不只是 reward sparse,而是 agent 很容易变成纯 reactive policy。StraTA 的路线是先从初始任务状态采样 compact strategy,再让后续动作条件化在这个 strategy 上;同时使用 diverse strategy rollout 与 critical self-judgment 改善探索和信用分配。实验场景包括 ALFWorld、WebShop、SciWorld,正好覆盖具身/网页/科学环境。
与 wenjun 研究方向的关系:
这篇可以和 Dreamer/model-based RL 做类比:strategy abstraction 像一个低维 latent plan,不一定显式预测世界状态,但承担“跨时间步压缩决策意图”的作用。值得研究的问题是:trajectory abstraction 能否由 learned world model 产生?是否可以把 strategy 当作 latent variable,在 rollout 前进行 planning/search?
#1.4 A²TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
- 类别:LLM Agent / Tool-use / Post-training RL / Credit Assignment
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06200 / HF Papers / GitHub
- 一句话贡献:面向多轮 tool-call agent,把每一轮对最终 ground-truth 概率的 Information Gain 作为内在过程信号,并引入 adaptive turn-level clipping 来稳定 agentic RL。
为什么值得关注:
多轮 agent 只有 trajectory-level outcome reward 时,很难知道哪次检索、哪次工具调用、哪次思考真正有用。A²TGPO 延续“用模型自身概率变化做过程信用”的方向:如果某一轮后,模型对正确答案的概率提高,就把这个 turn 看成产生了信息增益。它的贡献在于尝试把 IG 信号放进 RL training loop,同时处理不同位置 turn 的分布差异和 clipping 问题。
与 wenjun 研究方向的关系:
这篇非常适合对接“长轨迹 RL 的可学习 dense reward”。如果 wenjun 做代码 agent,可以把 unit test pass probability、patch correctness belief、检索证据 sufficiency 等都看成 turn-level IG 的替代信号。
#1.5 Continuous Latent Diffusion Language Model
- 类别:Latent Reasoning / Diffusion LM / Foundation Model
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06548 / HF Papers / 项目页
- 一句话贡献:提出 Cola DLM:先用 Text VAE 学 text-to-latent,再用 block-causal DiT 在连续 latent space 建模全局语义 prior,最后条件解码生成文本。
为什么值得关注:
它不是直接在 token 级别做 diffusion,而是把文本生成分解为全局语义组织和局部文本实现。论文称 diffusion 过程是 latent prior transport,而不是 token observation recovery。这对“潜空间推理”尤其重要:如果 reasoning traces 可以先在连续 latent 里完成全局规划,再解码成语言,那么可能绕开自回归 CoT 的 token-by-token 搜索成本。
与 wenjun 研究方向的关系:
可作为 latent-space reasoning 的基础模型侧参考。建议重点看:latent 是否真的承载可操作的推理状态?Text VAE 的瓶颈是否会损害事实细节?block-causal DiT 的结构是否适合长链推理/agent planning?
#2. Agentic RL / Model-based RL / Tool-use 相关论文
#2.1 When to Trust Imagination: Adaptive Action Execution for World Action Models
- 类别:Model-based RL / World Model / Robotics Agent
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06222 / HF Papers
- 一句话贡献:把 World Action Model 的执行长度选择建模为 future-reality verification:当想象未来仍可信时多执行,否则提前 replan。
简评:这篇不是 LLM agent,但对 Dreamer-style LLM Agent 有启发:world model rollout 的核心问题不是“能不能想象”,而是“何时相信想象”。LLM Agent 中可类比为:模拟下一步工具结果/用户反馈时,需要一个 verifier 判断 imagined trajectory 与真实环境偏离程度。
#2.2 Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic Reinforcement Learning
- 类别:Tool-use / Agentic RL / GRPO / Tree Search
- 来源/日期:arXiv RSS;Submitted 2026-05-06
- 链接:arXiv:2605.05262
- 一句话贡献:把固定 rollout budget 下的 rollout informativeness 形式化为注入 GRPO 的非消失 policy-gradient mass,并把中间状态选择转化为单调次模最大化问题。
简评:这篇更理论化,值得看其 RIFB 定义和 UUCB 推导。它的问题意识与实际训练强相关:agentic RL 的 rollout 很贵,预算不该平均撒,而应分配给能产生学习信号的中间状态。
#2.3 Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
- 类别:Post-training RL / Long-horizon Reasoning / Evaluation
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-07
- 链接:arXiv:2605.06638 / HF Papers
- 一句话贡献:提出 ScaleLogic,用可控逻辑系统分离 proof depth 与 logic expressiveness,研究 RL 训练 compute 如何随推理深度和表达能力扩展。
简评:这篇的价值在于给“RL 是否真的教会长程推理”提供可控环境。对 wenjun 来说,重点不是 synthetic logic 本身,而是如何设计可调难度环境来研究 RL 的 scaling law。
#2.4 Internalizing Outcome Supervision into Process Supervision
- 类别:Post-training RL / Process Supervision / Reasoning
- 来源/日期:arXiv RSS;Submitted 2026-04-19,近期在 RSS/HF 流中出现
- 链接:arXiv:2605.05226
- 一句话贡献:提出把 outcome-only feedback 内化为 fine-grained process supervision 的视角,试图缓解 reasoning RL 的 sparse reward 与 credit assignment。
简评:可与 A²TGPO、InfoTree 组成一组阅读:三者都在问“没有人工 process labels 时,过程监督从哪里来”。
#3. Code Agent / 代码智能 / 软件工程 Agent
#3.1 Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
- 类别:Code Agent / Post-training RL / RLVR
- 来源/日期:arXiv RSS;Submitted 2026-05-07
- 链接:arXiv:2605.06111
- 一句话贡献:提出 ASTOR,用 task utility 驱动多任务 code RL 的数据调度与校准,目标是在统一模型中学习多个 coding task,而不是为每类任务训练独立专家。
为什么值得关注:
RLVR for coding 已被验证有效,但多任务统一训练会遇到任务间干扰、预算分配和校准问题。ASTOR 的核心是用 utility signal 表示每类任务的学习潜力和跨任务协同,动态分配训练预算。
与 wenjun 研究方向的关系:
这是代码智能后训练最值得跟的一篇。可借鉴它的问题设定研究:不同代码任务(修 bug、补测试、重构、生成 kernel)在 RL 阶段的 reward 分布和学习曲线是否互相帮助?
#3.2 SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies
- 类别:Code Agent / Evaluation / Agentic Coding
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-06
- 链接:arXiv:2605.04637 / HF Papers / GitHub
- 一句话贡献:把 vibe coding 平台作为“虚拟软件开发公司”评测,覆盖需求理解、架构决策、生产代码、迭代修改和业务可用性等 68 个指标。
简评:这比传统 HumanEval/SWE-bench 更贴近产品化 agent。值得看其 68 个指标如何拆分 PM/Engineering/Ops 维度,可能对构造代码 agent 长轨迹环境有参考价值。
#3.3 Breaking, Stale, or Missing? Benchmarking Coding Agents on Project-Level Test Evolution
- 类别:Code Agent / Evaluation / Test Evolution
- 来源/日期:arXiv RSS;Submitted 2026-05-07
- 链接:arXiv:2605.06125 / GitHub
- 一句话贡献:提出 TEBench,要求 coding agent 在项目级 commit 变化后自动定位需修改/新增的测试并生成 test patch。
简评:测试演化是代码 agent 从“写代码”走向“维护软件”的关键任务。它比单函数修复更能暴露 repository understanding、impact analysis 和 long-context 能力。
#3.4 BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases
- 类别:Code Agent / Evaluation / Agent-managed Codebase
- 来源/日期:arXiv RSS;Submitted 2026-05-07
- 链接:arXiv:2605.06136
- 一句话贡献:评测一个 agent 生成的代码库是否便于后续 agent 理解、审计和扩展,把生成仓库视为给未来 agent 的 communication artifact。
简评:很有意思的评测视角:不只看当前代码能不能跑,还看未来 agent 能否从仓库中恢复设计意图。这可对应“agent 生成物如何塑造后续 agent 能力/上下文”。
#3.5 ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis
- 类别:Code Intelligence / Program Synthesis / Test-time Scaling
- 来源/日期:arXiv RSS;Submitted 2026-05-06
- 链接:arXiv:2605.05485
- 一句话贡献:用 coding agent 把少量 LLM reasoning traces 编译成可复用 symbolic program synthesizer,在测试时零 LLM 调用并显著提升 hard synthesis 任务表现。
简评:这是“把推理轨迹蒸馏为外部工具/solver”的强样本,可与 Skill1/SkillOS 的 skill distillation 对读:skill 不一定是自然语言,也可以是可执行 solver。
#4. Retrieval / Context Compression / Agent Search
#4.1 Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
- 类别:LLM Agent / Retrieval / Agentic Search
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-03
- 链接:arXiv:2605.05242 / HF Papers / GitHub / HF Demo
- 一句话贡献:批评固定 top-k 相似度检索对 agentic search 的限制,提出 Direct Corpus Interaction,让 agent 直接以通用操作搜索原始语料。
简评:与“通用上下文压缩器”和 agent search 强相关。核心判断是:agent 任务需要精确词法约束、稀疏线索组合、局部上下文检查和多步假设修正,单次 top-k 检索会过早丢证据。
#4.2 Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
- 类别:Retrieval / Agentic Search / Evaluation
- 来源/日期:Hugging Face Daily Papers / arXiv RSS;Submitted 2026-05-05
- 链接:arXiv:2605.04018 / HF Papers / GitHub
- 一句话贡献:提出 BRIGHT-Pro,扩展 reasoning-intensive retrieval 的多方面 gold evidence,并在 static 与 agentic search protocol 下评测 retriever。
简评:如果要做 Deep Research / Search Agent,retriever 不应只优化单 passage relevance,而应优化 evidence portfolio construction。这与 DCI-Agent 是互补的:一个改接口,一个改评测和训练数据。
#4.3 LCM: Lossless Context Management
- 类别:Context Compression / Code Agent / Long-context
- 来源/日期:arXiv RSS;Submitted 2026-02-14,近期在 RSS 中出现
- 链接:arXiv:2605.04050
- 一句话贡献:提出 deterministic LLM memory 架构,通过 recursive context compression 和 lossless pointers 管理长上下文,并报告在 OOLONG long-context coding agent eval 上优于 Claude Code。
简评:需谨慎看待性能 claim,但方向值得跟:上下文压缩不只是摘要,而是“可追溯的压缩 DAG + 原文指针”。对代码 agent 来说,这比单纯扩大 context window 更可控。
#4.4 AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop RAG
- 类别:RAG / Context Budget / Multi-hop Reasoning
- 来源/日期:arXiv RSS;Submitted 2026-05-04
- 链接:arXiv:2605.05245 / GitHub
- 一句话贡献:把多跳 RAG 的证据选择建模为 token-constrained repair problem,使用 gap tracking、micro-query 和 utility selection 修补缺失桥接事实。
简评:适合与 DCI/BRIGHT-Pro 一起看,代表“检索不是相似度排序,而是面向推理缺口的主动证据组装”。
#5. 训练数据、持续学习与基础模型训练机制
#5.1 Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods
- 类别:Pretraining Data / Continual Learning / Training Mechanism
- 来源/日期:arXiv RSS;Submitted 2026-04-19,近期出现
- 链接:arXiv:2605.05227
- 一句话贡献:把数据整理从离线过滤/混合转为训练中的 online reweighting,用动态 per-sample learning rate 调整样本重要性。
为什么值得关注:
离线 data curation 在模型/任务变化时容易失效,也可能牺牲多样性。online reweighting 更像“训练过程中的持续数据选择”,适合研究数据质量如何随模型状态动态变化。
与 wenjun 研究方向的关系:
这能连接“预训练数据质量/去重/代码数据质量”和“能力形成机制”:样本价值不是静态属性,而依赖当前模型表征、loss landscape 和目标能力。
#5.2 Bridging Generation and Training: A Systematic Review of Quality Issues in LLMs for Code
- 类别:Code Intelligence / Pretraining Data / Survey
- 来源/日期:arXiv RSS;Submitted 2026-05-06
- 链接:arXiv:2605.05267 / GitHub
- 一句话贡献:综述 114 篇研究,建立从训练数据质量问题到代码生成缺陷的 taxonomy 和 18 类传播机制。
为什么值得关注:
代码模型的生成缺陷常被归因于模型能力不足,但这篇把 root cause 指向训练语料质量,并系统化“数据问题如何传导成代码缺陷”。
与 wenjun 研究方向的关系:
适合做代码数据质量研究的入口文献。可进一步问:哪些 data quality issue 最影响 agentic coding,而不是单次 code generation?比如 stale API、缺失测试、低质量 README、重复模板等。
#5.3 Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization
- 类别:Training Mechanism / Diagnostics / Foundation Model
- 来源/日期:arXiv RSS;Submitted 2026-05-07
- 链接:arXiv:2605.05683
- 一句话贡献:用 activation covariance 与 per-sample gradient SVD spectra 诊断 LLM 训练内部表征,发现 batch size 等因素会在同等 loss 下产生不同表征几何。
简评:这是“训练 loss/throughput 掩盖内部机制”的一类工作。若 wenjun 关心基础模型能力形成,可把 spectral diagnostics 作为理解数据混合、batch size、curriculum 对表示几何影响的工具。
#5.4 Prescriptive Scaling Laws for Data Constrained Training
- 类别:Scaling Law / Data-constrained Training
- 来源/日期:Hugging Face Daily Papers;arXiv,Submitted 2026-05-02 左右(HF 2026-05-09 收录)
- 链接:arXiv:2605.01640 / HF Papers
- 一句话贡献:面向数据受限训练给出 prescriptive scaling law,用于指导 compute/data 受限时的训练配置。
简评:建议作为背景跟踪,不是本期最贴 agent,但与“高质量数据不足时如何训练基础模型”相关。
#6. 其他值得扫读的论文/动态
| 标题 | 类别 | 来源/日期 | 链接 | 一句话核心贡献 |
|---|---|---|---|---|
| Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games | LLM Agent / Evaluation | arXiv 2026-05-05 | arXiv:2605.04312 | 用多智能体游戏构造动态 benchmark,缓解静态榜单饱和与污染。 |
| When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration | Multi-Agent / Context Engineering | arXiv 2026-05-05 | arXiv:2605.04361 | 在多 agent 软件设计中发现“更多上下文不总是更好”,上下文可能提升也可能降低探索。 |
| KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels | Code Intelligence / Systems | HF Papers 2026-05-09 | arXiv:2605.04956 / GitHub | 扩展 LLM 生成 GPU kernel 的评测维度,适合关注 code+systems 的模型能力。 |
| The Scaling Properties of Implicit Deductive Reasoning in Transformers | Reasoning / Mechanism | HF Papers 2026-05-09 | arXiv:2605.04330 | 研究 Transformers 在 Horn clauses 隐式演绎推理上的 scaling properties。 |
| Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO | Post-training RL / GRPO | HF Papers 2026-05-09 | arXiv:2605.04077 | 分析并修复 GRPO 聚合偏差,适合作为 RLVR/GRPO 方法论背景。 |
| OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents | Multimodal Agent / Agentic RL | arXiv 2026-05-06 | arXiv:2605.05185 / GitHub | 开源多模态 deep search agent 的数据构造、SFT/RL 训练 recipe。 |
| BioTool: A Comprehensive Tool-Calling Dataset for Biomedical LLMs | Tool-use / Dataset | HF Papers 2026-05-09 | arXiv:2605.05758 / GitHub | 面向生物医学领域的 tool-calling 数据集,用于提升专业工具使用能力。 |
| An Empirical Study of Proactive Coding Assistants in Real-World Software Development | Code Agent / Intent Understanding | arXiv 2026-05-07 | arXiv:2605.05700 | 研究主动式 coding assistant 如何从 IDE 行为和 repo context 推断开发者潜在意图。 |
| DADL: A Declarative Description Language for Enterprise Tool Libraries in LLM Agent Systems | Tool-use / MCP / Systems | arXiv 2026-05-04 | arXiv:2605.05247 | 用声明式 API 描述语言缓解企业级 MCP tool library 的部署和 context 膨胀问题。 |
| Parness: A Paper Harness for End-to-End Automated Scientific Research | Research Agent | arXiv 2026-05-06 | arXiv:2605.05258 / GitHub | 面向自动科研 agent 的动态 workflow、全文索引与跨运行知识积累框架。 |
#7. 今日最值得精读的 3 篇
- Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
链接:https://arxiv.org/abs/2605.06130
理由:最贴近“agent 经验/技能如何通过 RL 自演化”,可作为 self-evolving agent 主线入口。
- StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
链接:https://arxiv.org/abs/2605.06642
理由:把长轨迹 agentic RL 的高层 strategy 抽象显式化,适合连接 latent planning / model-based RL。
- Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
链接:https://arxiv.org/abs/2605.06111
理由:代码 RLVR 从单任务专家走向统一多任务训练,是 code agent 后训练的关键问题。
备选精读:Continuous Latent Diffusion Language Model(如果今天更想看 latent reasoning / latent generation)。
#8. 今日最值得跟进的 3 个 repo / model / dataset
- StraTA:<https://github.com/xxyQwQ/StraTA>
关注点:是否开源训练脚本、ALFWorld/WebShop/SciWorld 环境适配、hierarchical GRPO rollout 细节。
- DCI-Agent-Lite / DCI-Agent demo / eval logs:
- GitHub:<https://github.com/DCI-Agent/DCI-Agent-Lite>
- Demo:<https://huggingface.co/spaces/DCI-Agent/demo>
- Logs:<https://huggingface.co/datasets/DCI-Agent/eval-logs>
关注点:direct corpus interaction 的实际操作空间、与标准 retriever/RAG 的差异、能否迁移到 paper/codebase search。
- TEBench:<https://github.com/iSEngLab/TEBench>
关注点:项目级 test evolution 任务构造、Defects4J 实例、是否适合作为 code agent long-horizon RL 环境。
可额外关注:
- SWE-WebDevBench:<https://github.com/snowmountainAi/webdevbench>
- OpenSearch-VL:<https://github.com/shawn0728/OpenSearch-VL>
- From-Data-to-Code:<https://github.com/SYSUSELab/From-Data-to-Code>
- AdaGATE:<https://github.com/eliguo/AdaGATE>
#9. 研究机会 / Ideas
#Idea 1:把 skill library 视作“可训练的数据分布”,研究 agentic RL 中的 online data curation
Skill1/SkillOS 与 ADAPT 可以合在一起看:skill repo、trajectory memory、代码片段库本质上都是 agent 未来训练/推理会消费的数据分布。可以提出一个问题:
在 long-horizon LLM Agent 中,哪些经验应该被保留为 skill,哪些应该被遗忘/合并/重写?这个过程能否用 online reweighting 或 RL credit assignment 学出来?
可能实验:在 WebShop/SWE-bench-lite/自建代码修复环境中,让 agent 不断积累技能;比较人工规则、embedding 去重、outcome-only RL curator、process-IG curator 对长期 performance 和 memory bloat 的影响。
#Idea 2:把 trajectory-level strategy abstraction 与 world model verifier 结合
StraTA 负责生成高层 strategy,WAM verifier 负责判断 imagined future 何时失效。对 LLM Agent 可提出:
先生成 latent/文本 strategy,再通过 lightweight verifier 在每轮工具调用后判断当前真实观测是否仍支持原 strategy;若偏离则 replan。
这就是语言 agent 版的“when to trust imagination”。可用于 code agent:先生成 bug-fix plan,执行若干编辑/测试后,verifier 判断计划是否仍成立,避免盲目沿错误方向滚动。
#Idea 3:面向代码 agent 的“上下文不是越多越好”系统研究
When Context Hurts、LCM、DCI、TEBench 可以组成一个研究问题:
对 repository-level coding agent,哪些上下文会提升任务表现,哪些上下文会诱导错误收敛?能否学习一个 context controller,根据任务阶段主动选择/压缩/屏蔽上下文?
实验设计:在项目级 test evolution 或 bug fixing 中构造不同 context injection 条件(README、历史 issue、相关测试、无关文件、压缩摘要、原文指针),观察探索多样性、修复正确率、token 成本和后续 agent 可理解性。
#10. 来源与访问限制说明
- Hugging Face Papers 页面可访问,并用于获取 2026-05-07 至 2026-05-09 的热门论文列表。
- arXiv 批量 API 查询出现 HTTP 429,因此本期采用 arXiv RSS 与逐篇 arXiv 页面核验标题、日期、摘要和链接。
- Semantic Scholar API 本次返回 429,未用于最终结论。
- X/Twitter 未作为事实来源;本期用 arXiv、HF Papers、GitHub、Hugging Face datasets/models 等可访问来源替代。
- GitHub 搜索中存在大量低星/自动生成仓库,本期只把与论文绑定或数据集/benchmark 明确的 repo 放入“值得跟进”。