每日调研 2026-07-05 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-07-05 AI/LLM 最新论文与研究热点简报

检索时间：2026-07-05 08:00（Asia/Shanghai）。主要检索 Hugging Face Daily Papers、arXiv cs.AI/cs.CL/cs.LG/cs.SE/stat.ML、GitHub 搜索与可访问项目页。arXiv 在周末/节假日前后会出现提交延迟；本期可验证的新论文主要集中在 2026-07-01 至 2026-07-02，HF Daily Papers 则在 7 月 3-5 日持续展示这些条目。因此本期按“最近 24-48 小时可见热点 + 最近 3-4 天新增论文”筛选。X/Twitter 未作为事实来源使用；其公开检索稳定性较差，本期以论文页、HF、GitHub/项目页替代。

#0. 总体判断

今天最值得关注的主线不是单点 SOTA，而是 Agent 研究正在从“会不会完成任务”转向“轨迹、记忆、环境交互和训练基础设施是否可控”：

长轨迹 Agent 的记忆契约开始被显式化：AgenticSTS 把每一步决策可见的信息限制为 typed retrieval，而不是无限拼接 transcript；Maven 用 evidence-state reward 给长上下文推理的中间证据编辑动作分配 credit。
代码/软件 Agent 的评估颗粒度变细：AgentFlow、IAL-Scan、TestEvo-Bench、DUALVIEW 等都在把 agent 程序、轨迹、测试演化和 repo 结构变成可分析对象。
Agent RL 的瓶颈继续下沉到系统层：coding-agent RL 不只缺算法，也缺低延迟、低成本、可大规模 rollout 的执行基建；“Rollout Infrastructure Tax”直接把这个成本量化。
基础模型训练机制方向出现数据配比因果化趋势：CausalMix 试图把 data mixture 从 proxy sweep 变成可外推的 causal inference 问题，和 wenjun 关注的预训练数据质量/组成非常相关。

#1. 今日重点论文 / 动态

#1. AgenticSTS: Bounded-Memory Testbed for Long-Horizon LLM Agents

类别：LLM Agent / Long-horizon Agent / Memory / Evaluation
链接：https://arxiv.org/abs/2607.02255v1；项目页：https://alayalab.github.io/AgenticSTS/；GitHub：https://github.com/AlayaLab/AgenticSTS
来源 / 日期：arXiv 2026-07-02；HF Daily Papers 2026-07-03/04/05 可见。
作者：Xiangchen Cheng, Yunwei Jiang, Jianwen Sun, Zizhen Li 等
一句话核心贡献：提出一个 Slay the Spire 2 长轨迹测试床，把 Agent 每步决策的上下文定义为“typed retrieval 组装的新消息”，避免无限拼接历史，并能逐层 ablate 记忆组件。

为什么值得关注：这篇的关键不是游戏环境本身，而是“memory as contract”这个 framing。很多长轨迹 Agent 失败时，我们无法判断是策略差、检索差、反思差、历史污染，还是上下文超长导致注意力崩溃。AgenticSTS 把每一步可见信息做成有类型、可消融的 contract，使得记忆系统从 prompt engineering 变成可实验变量。

与 wenjun 方向的关系：如果要做 LLM Agent 的 Dreamer/model-based RL，这种 bounded memory contract 可以作为 latent state / belief state 的外显接口：世界模型不必重放全部 transcript，而是学习/维护可检索的 typed belief。它也适合研究“agent 预训练数据如何塑造长轨迹策略”：训练数据中哪些 memory schema 会导致更稳定的策略？

#2. Evidence-State Rewards for Long-Context Reasoning / Maven

类别：Post-training RL / Long-context Reasoning / Credit Assignment
链接：https://arxiv.org/abs/2607.02073v1
来源 / 日期：arXiv 2026-07-02。
作者：Ya Gao, Pekka Marttinen
一句话核心贡献：提出 Maven，用可编辑 evidence memory 建模长上下文推理，在 GRPO 中对 add/link/drop 等中间证据操作按 evidence-state value 分配 action-level reward。

为什么值得关注：RLVR 常见问题是奖励太末端：答案对了才有信号，但长上下文任务的难点往往在中间证据的定位、修正与组合。Maven 将“证据状态”作为中间可评估对象，奖励的是状态转移的边际贡献，而不是只奖励最终答案。

与 wenjun 方向的关系：这与长轨迹 Agent 的 credit assignment 高度同构：Agent 不只是输出答案，而是在不断更新 belief/memory/tool-state。Maven 的 add/link/drop reward 可以迁移到代码 Agent：例如 reward “定位正确文件”“删除误导性假设”“建立 issue 与测试失败之间的链路”。这也可能成为 LLM model-based RL 中 latent belief 更新的监督信号。

#3. DecompRL: Solving Harder Problems by Learning Modular Code Generation

类别：Code Agent / Post-training RL / Verifiable Reward / Program Synthesis
链接：https://arxiv.org/abs/2607.02390v1
来源 / 日期：arXiv 2026-07-02。
作者：Juliette Decugis, Fabian Gloeckle, Francis Bach, Taco Cohen 等
一句话核心贡献：提出 DecompRL，让模型通过 RL 学会把复杂编程题分解成可独立验证/组合的子函数，试图突破“base policy 正确概率近零”时重复采样和普通 RL 都无效的问题。

为什么值得关注：这篇直指代码 RL 的核心瓶颈：如果原策略几乎不可能一次生成完整正确解，终局 reward 没有梯度，采样也只是烧 GPU。DecompRL 的思路是改变搜索空间，把“生成一个大程序”变成“生成模块化结构 + 组合验证”。

与 wenjun 方向的关系：对 agentic coding 很关键。现实 repo 任务通常不是单文件补丁，而是多步定位、设计接口、写实现、补测试。DecompRL 暗示：与其只训练 end-to-end patch，不如训练 agent 产出可验证的中间模块/计划，并把这些模块作为 RL 的 action abstraction。

#4. The Rollout Infrastructure Tax in Coding-Agent Reinforcement Learning

类别：Code Agent / RL Systems / Training Infrastructure
链接：https://arxiv.org/abs/2607.01415v1
来源 / 日期：arXiv 2026-07-01。
作者：Daniel Thi Graviet, Lovre Pesut, Ivan Dagelic, Vedran Jukic 等
一句话核心贡献：比较单容器、hosted sandbox、Kubernetes 容器和云 VM 等执行基底，发现 coding-agent RL 的冷启动延迟最高可差 110 倍，百万条 150-step 轨迹 worker-hours 可差 1.8 倍。

为什么值得关注：代码 Agent RL 的“环境步”非常贵：每步可能要 checkout、安装依赖、跑测试、重启 sandbox。论文提醒我们，训练系统的执行基底本身就是算法的一部分，不能只看 GRPO/PPO 的 objective。

与 wenjun 方向的关系：如果 wenjun 做 self-evolving code agent 或长轨迹 RL，这篇可以直接进入系统设计 checklist：环境缓存、warm pool、快照恢复、测试选择、失败轨迹截断，都会影响可训练性和最终策略分布。

#5. AgentFlow + IAL-Scan：Agent 程序静态分析开始成形

LLM Agent / Code Intelligence / Static Analysis] [AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Shenao Wang, Xinyi Hou, Yanjie Zhao, Xiao Cheng 等。一句话：AgentFlow 构建 Agent Dependency Graph，恢复 agent、prompt、tool、memory、多 agent handoff 等框架语义依赖。
LLM Agent / Safety / Static Analysis] [When Agents Do Not Stop: Uncovering Infinite Agentic Loops in LLM Agents — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Xinyi Hou, Shenao Wang, Yanjie Zhao, Haoyu Wang。一句话：IAL-Scan 面向 Infinite Agentic Loops，检测由模型调用、工具、工作流跳转和 handoff 交互导致的非普通程序循环。

为什么值得关注：这两篇来自相近作者线，代表一个重要方向：Agent 不再只是 prompt，而是混合了代码、框架语义、模型调用和外部副作用的“agent program”。传统 control/data flow 不够，需要 Agent Dependency Graph 这类新 IR。

与 wenjun 方向的关系：对代码智能和 Agent 安全都很有用。未来做 agentic RL 时，静态分析可以提供：可行动作空间约束、工具依赖图、潜在死循环风险、训练前的任务难度估计。它也可以作为 world model 的结构先验。

#6. SkillCoach: Self-Evolving Rubrics for Agentic Skill-Use

类别：LLM Agent / Tool-use / Evaluation / Self-evolving Agent
链接：https://arxiv.org/abs/2607.01874v1
来源 / 日期：arXiv 2026-07-02；HF Daily Papers 可见。
作者：Jiayin Zhu, Kelong Mao, Yudong Guo, Dengbo He 等
一句话核心贡献：从真实 rollout 中自动生成 skill-grounded process rubrics，分别评估 skill selection、following、composition、reflection，并与最终 verifier 结果解耦。

简评：这篇适合和 RL 结合。最终成功率太粗，SkillCoach 提供的是过程质量标签：选错 skill 但碰巧成功、选对 skill 但组合差、忘记 final check，这些都能区分。对 wenjun 关心的“从指令理解到意图理解”和“skill repository 如何塑造 agent 能力”有直接启发。

#2. 其他值得扫读的新论文

LLM Agent / RL Environment / Evaluation] [EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Zhilin Wang, Han Song, Runzhe Zhan, Jusen Du 等。一句话：EvoPolicyGym 定义 Autonomous Policy Evolution，让 harness-model agent 在固定交互预算内反复编辑 executable policy，并分析反馈如何转化为策略改进。

Code Agent / Repository Reasoning] [Beyond Textual Repository Exploration: Dual-Modal Structural Reasoning for Agentic Issue Resolution — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Jiayi Zhang, Kai Huang, Yang Liu, Chunyang Chen。一句话：DUALVIEW 为 issue-resolution agent 提供 repo 的多图结构视图，缓解纯文本顺序探索导致的长程依赖重构与 exploration drift。

Code Agent / Evaluation / Testing] [TestEvo-Bench: An Executable and Live Benchmark for Test and Code Co-Evolution — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Jiale Amber Wang, Kaiyuan Wang, Pengyu Nie。一句话：TestEvo-Bench 用真实 commit 历史构造 test generation 与 test update 任务，要求测试与代码变更共同演化且可执行验证。

Data Agent / Evaluation] [AgenticDataBench: A Comprehensive Benchmark for Data Agents — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Zhaoyan Sun, Shan Zhong, Daizhou Wen, Jiaxing Han 等。一句话：AgenticDataBench 面向数据科学 agent，覆盖多领域、细粒度 ground truth 的真实任务，用于评估数据清洗、分析、建模等工作流。

LLM Agent / Memory / Safety] [MemSyco-Bench: Benchmarking Sycophancy in Agent Memory — 来源：arXiv / HF Daily Papers；日期：2026-07-01；作者：Zhishang Xiang, Zerui Chen, Yunbo Tang, Zhimin Wei 等。一句话：MemSyco-Bench 评估 retrieved memory 诱发的 sycophancy：什么时候应该使用记忆，什么时候应拒绝把记忆当事实。

Continual Learning / Test-time Training / Memory Evaluation] [Beyond Perplexity: A Behavioral Evaluation Framework for Deployment-Memory Claims in LLM Test-Time Training — 来源：arXiv / HF Daily Papers；日期：2026-07-01；作者：Xiangchen Song, Zhenhao Chen, Lingjing Kong, Shaoan Xie 等。一句话：指出 TTT 常用 perplexity/未来 token loss 不足以证明部署记忆能力，提出面向 recall、retention、locality、conflict handling 的行为评估框架。

Pretraining Data / Data Mixture / Training Mechanism] [CausalMix: Data Mixture as Causal Inference for Language Model Training — 来源：arXiv / HF Daily Papers；日期：2026-07-01；作者：Zinan Tang, Yukun Zhang, Shaomian Zheng, Zhuoshi Pan 等。一句话：CausalMix 将数据混比优化表述为因果推断，用数据池统计特征作为 covariates、domain mixture 作为 treatment，尝试从小模型实验外推到 7B 训练。

Self-evolving LM / Training Agent / Post-training] [AutoTrainess: Teaching Language Models to Improve Language Models Autonomously — 来源：arXiv / HF Daily Papers；日期：2026-06-30；作者：Zhaojian Yu, Penghao Yin, Shuzheng Gao, Shilin He 等。一句话：AutoTrainess 把数据准备、训练、评估、日志等训练操作封装为 agent-computer interfaces，使 LM agent 能更稳定地自主改进 LM。

Model-based RL / World Model / Long-horizon Agent] [Ask the World Before Acting: Budgeted Environment Probing for World-Model Calibration — 来源：arXiv / HF Daily Papers；日期：2026-06-30；作者：Xinyuan Song, Zekun Cai。一句话：将环境 probing 视为稀缺校准资源：Agent 在行动前可查询一个 belief field 并写回 world model，用于修复长轨迹 belief drift。

Context Compression / Agent Decision Fidelity] [When Summaries Distort Decisions: Information Fidelity in LLM-Compressed Financial Analysis — 来源：arXiv / HF Daily Papers；日期：2026-06-28；作者：Hoyoung Lee, Suhwan Park, Seunghan Lee, Jun Seo 等。一句话：指出 LLM 压缩金融材料可能保留流畅事实但改变下游投资判断，提出 information fidelity 视角，警惕 agent 中间摘要误导决策。

Programming Paradigm / Small Model / Local Inference] [Program-as-Weights: A Programming Paradigm for Fuzzy Functions — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Wentao Zhang, Liliana Hotsko, Woojeong Kim, Pengyu Nie 等。一句话：Program-as-Weights 将自然语言 fuzzy function 编译成小型本地神经 artifact，试图替代频繁调用大模型 API 的模糊编程任务。

World Model / Video Simulation / Persistent Memory] [WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory — 来源：arXiv / HF Daily Papers；日期：2026-07-02；作者：Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang 等。一句话：WorldDirector 用 LLM 协调 3D 轨迹与相机运动，结合视频生成实现带 persistent dynamic object memory 的可控世界模拟。

#3. 今日最值得精读的 3 篇

AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

精读原因：给长轨迹 Agent 的 memory/belief state 研究提供了非常清楚的实验接口，适合延展到 model-based RL / Dreamer-style Agent。

Evidence-State Rewards for Long-Context Reasoning

精读原因：把长上下文推理的中间证据状态转移变成可奖励对象，是从 outcome reward 走向 process credit assignment 的好例子。

DecompRL: Solving Harder Problems by Learning Modular Code Generation

精读原因：针对代码 RL 中“正确轨迹概率近零”的核心难题，提出用模块化分解重塑搜索空间，和 code agent 的分层 action/option 学习高度相关。

备选第 4 篇：The Rollout Infrastructure Tax in Coding-Agent Reinforcement Learning，如果最近要设计 agent RL 训练系统，应优先读。

#4. 今日最值得跟进的 repo / model / dataset

AlayaLab/AgenticSTS：<https://github.com/AlayaLab/AgenticSTS>

已公开的长轨迹 bounded-memory Agent 测试床，适合作为 memory contract、typed retrieval、belief-state 更新实验平台。

AgenticSTS 项目页 / benchmark：<https://alayalab.github.io/AgenticSTS/>

可跟踪 frontier model 在 Slay the Spire 2 任务上的在线表现；重点看不同 memory layer ablation 对 win rate/trajectory 的影响。

HF Daily Papers: 2026-07-03/04/05 Agent/Reasoning 条目：<https://huggingface.co/papers/date/2026-07-03>

本期 AgenticSTS、SkillCoach、EvoPolicyGym、AgenticDataBench、WorldDirector 等都在 HF 页面集中出现，适合继续追踪是否补充代码/数据链接。

GitHub 搜索补充说明：GitHub API 在本次检索中触发 rate limit，已成功确认 AgenticSTS repo；其他论文的官方 repo 未稳定检出，因此未编造链接。

#5. 研究机会 / Idea

#Idea 1：把 bounded memory contract 变成 LLM Agent 的 latent state 学习目标

AgenticSTS 的 typed retrieval 可以看作显式 belief state。可以设计一个 Dreamer-like LLM Agent：

world model 预测下一步 observation / verifier signal；
memory encoder 只接收 typed belief，而非完整 transcript；
actor 在 bounded belief 上规划；
critic 不只估 final reward，还估 memory state 是否包含足够 task-relevant information。

关键问题：typed memory 是人工 schema，还是可以从轨迹中自动发现？如果 agent 预训练数据包含不同 schema，会不会塑造不同的长程能力？

#Idea 2：将 Maven 的 evidence-state reward 迁移到代码 Agent

代码 Agent 的中间行为可以类比 add/link/drop evidence：

add：定位一个相关文件、测试、错误日志；
link：建立 bug report、调用链、失败测试、patch 之间的因果关系；
drop：删除错误假设或无关上下文；
answer support：最终 patch 是否被 tests/verifier 支持。

可以构造“repo evidence memory”，用 action-level reward 训练 agent 更快收敛到正确 patch，而不是只用最终 test pass/fail。

#Idea 3：把 rollout infrastructure 作为 agent RL 算法变量

不要把 sandbox 当工程细节。可以系统比较：warm container、snapshot restore、dependency cache、test selection、partial verifier、parallel branch rollout 对 RL 样本效率和策略偏差的影响。一个可能的论文问题是：更快但更近似的 verifier 是否会诱导 code agent 学到错误策略？ 这连接了系统、RL 和代码智能评估。

#6. 快速行动建议

今天优先读：AgenticSTS → Maven → DecompRL。
如果要做实验复现：先 clone AgenticSTS，看其 typed memory ablation 是否能替换成自己的 memory/belief module。
如果要写 proposal：把“长轨迹 Agent 的 memory contract + evidence-state credit assignment + rollout system co-design”组织成一条主线，会比单纯 benchmark 刷分更有研究味道。