#2026-05-15 AI/LLM 最新论文与研究热点简报

检索时间:2026-05-15 08:00 CST。重点覆盖 Hugging Face Papers 2026-05-13 榜单、arXiv 近几日提交/更新、GitHub 新仓库检索。arXiv API 在检索过程中多次返回 429/timeout,因此本文对可访问的 arXiv abs 页面与 Hugging Face Papers 页面做交叉核验;X/Twitter 未直接纳入,避免不可访问时引入未验证传闻。

#0. 今日结论先读

最近 24–72 小时里,最贴近 wenjun 研究主线的信号不是单篇 SOTA,而是一组高度一致的趋势:Agent 后训练正在从“最终答案可验证”转向“轨迹、记忆、世界模型、工具路径、异步训练系统”一起被建模

值得优先关注的方向有四个:

  1. Agentic RL 的工程问题开始被显式论文化:异步 rollout 的 off-policy correction、LoRA 策略训练/服务基础设施、rubric reward hacking 等,都在处理“真实 agent 训练系统”中的非理想因素。
  2. World model for agents 正在从机器人/视频扩散迁移到 MCP、企业系统、软件系统:这与 LLM model-based RL / Dreamer for Agent 方向高度相关,但新论文也提醒:如果环境规则可以运行时读取,学习世界模型未必总是最优。
  3. Agent 长期记忆不再只看用户画像,而开始评测环境经验、隐私、在线压缩与持续更新副作用:对代码 Agent、长轨迹 RL 和个人助手都很关键。
  4. 潜空间/循环推理继续升温:LoopUS、Attractor Models、Multi-Stream LLMs、Thinking in Code 等工作都在挑战“单流 token-by-token 解码 + 外部 CoT”的默认范式。

#1. 最值得关注的 5 条

#1.1 MinT: Managed Infrastructure for Training and Serving Millions of LLMs

  • 链接:https://arxiv.org/abs/2605.13779
  • 来源:arXiv / Hugging Face Papers
  • 日期:2026-05-13
  • 类别:Systems / Post-training RL / Agent Training Infrastructure
  • 一句话核心贡献:提出 MindLab Toolkit(MinT),把 LoRA RL 训练、rollout、评估、服务、回滚组织成面向海量策略版本的托管基础设施,支持 frontier-scale dense/MoE 模型,并通过只移动 adapter 降低策略迭代成本。

为什么值得关注

这篇不是又一个算法 trick,而是把“训练大量 agent/policy 版本”的工程形态抽象出来:base model 常驻,策略以 LoRA adapter revision 的形式在 rollout、update、export、evaluation、serving、rollback 之间流动。对 agentic RL 来说,未来真正制约研究迭代速度的往往不是单次 PPO/GRPO 公式,而是如何稳定地产生、评估和部署大量策略版本。

与 wenjun 的关系

wenjun 关注 LLM Agent RL 与基础模型训练机制。MinT 可以作为理解“agent post-training 系统层瓶颈”的参考:如果做 Dreamer-style / model-based agent RL,也需要类似的策略版本管理、rollout 服务、adapter 快速切换与回滚机制。


#1.2 Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

  • 链接:https://arxiv.org/abs/2605.12070
  • 来源:arXiv / Hugging Face Papers
  • 日期:2026-05-12
  • 类别:Post-training RL / LLM Agent / Systems
  • 一句话核心贡献:指出异步 agentic RL 中 PPO 风格 off-policy correction 存在“训练-推理分布差异”和“策略陈旧性”两类语义不同的比率混淆,并提出修复方法。

为什么值得关注

大模型 agent 训练常常必须异步:rollout 很慢,优化也很贵,不可能完全同步等待。论文抓住了一个非常真实的问题:实践中旧 logits 缺失或版本不一致时,importance ratio 不再只是数学上一个简单校正项,而混合了 inference engine、训练引擎、历史策略和当前策略之间的多重偏差。

与 wenjun 的关系

如果 wenjun 做长轨迹 LLM Agent RL,这篇很可能比许多 benchmark paper 更有价值。它提醒我们:agent RL 的“算法效果”可能被系统异步性、推理/训练栈差异污染。未来复现或设计 model-based RL for agents 时,需要记录策略版本、推理 logits、adapter revision、采样服务配置,否则 credit assignment 与 off-policy correction 都会变得不可解释。


#1.3 MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

  • 链接:https://arxiv.org/abs/2605.09131
  • 来源:arXiv / Hugging Face Papers
  • 日期:2026-05-09
  • 类别:Model-based RL / LLM Agent / Tool-use / World Model
  • 一句话核心贡献:把 generative world model 接入 MCP 生态,提出“Bring Your Own World Model”式 agent 框架,使 agent 在工具环境中具备预测式任务自动化能力。

为什么值得关注

MCP 正在成为 LLM 调用外部工具/环境的通用接口。如果世界模型也被抽象成 MCP agent 的可插拔组件,那么“agent 预训练 + 环境模型 + 规划”的研究会从 toy environment 进入真实工具生态。这是 LLM agent 版 Dreamer 的一个自然落点。

与 wenjun 的关系

这篇与“LLM model-based RL / Dreamer for LLM Agent”直接相关。值得重点看它如何定义环境状态、动作、预测目标,以及 world model 在 MCP 中到底预测什么:工具返回?任务进度?失败模式?如果它只是生成式模拟器,还要进一步追问能否用于 policy improvement,而不只是 planning aid。


#1.4 RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

  • 链接:https://arxiv.org/abs/2605.10899
  • 来源:arXiv / Hugging Face Papers
  • 日期:2026-05-11
  • 类别:Post-training RL / LLM Agent / Evaluation / Long-horizon Research Agent
  • 一句话核心贡献:针对深度研究 agent 这类没有唯一 ground truth 的长轨迹任务,提出用 rubric 同时组织策略执行、judge feedback 与 agent memory 的 meta-RL 框架。

为什么值得关注

最近 RLVR 在数学/代码上很强,但深度研究、信息综合、实验配置这类任务缺乏可验证最终答案。RubricEM 的重点是把 rubric 从“最终打分器”变成中间策略分解和记忆组织接口,这比单纯 judge final answer 更适合长轨迹 agent。

与 wenjun 的关系

wenjun 关注从指令理解到意图理解、长轨迹 agent RL。RubricEM 提供了一个可研究的问题:rubric 能否作为 latent task state / option decomposition?如果把 rubric item 看成子目标,是否能结合 world model 预测每个子目标达成概率?


#1.5 LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

  • 链接:https://arxiv.org/abs/2605.11011
  • 来源:arXiv / Hugging Face Papers
  • 日期:2026-05-10,2026-05-11 更新
  • 类别:Latent Reasoning / Test-time Scaling / Model Architecture
  • 一句话核心贡献:提出 Looped Depth Up-Scaling,把标准预训练 LLM 改造成 encoder + looped reasoning block + decoder 的循环潜空间 refinement 架构,以较低成本获得 test-time compute 扩展。

为什么值得关注

潜空间推理方向的核心问题是:模型是否必须把每一步推理显式写成 token?LoopUS 的价值在于它不要求从头训练 recurrent transformer,而是尝试把已有预训练模型重组为可循环 refinement 的结构。这对“复用现有 base model 做 latent reasoning”很有启发。

与 wenjun 的关系

wenjun 近期重点关注 latent-space reasoning。LoopUS 适合与 Attractor Models、Multi-Stream LLMs、Thinking in Code 对照阅读:它们分别从循环深度、固定点 refinement、多流计算、代码作为推理介质四个角度突破单流语言推理。


#2. 论文与动态清单

#2.1 Agent RL / 后训练 / Reward

#RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

  • 链接:https://arxiv.org/abs/2605.10899
  • 来源:arXiv / HF Papers
  • 日期:2026-05-11
  • 类别:Post-training RL / LLM Agent / Evaluation
  • 核心贡献:把 rubric 用作策略分解、judge 反馈与 agent memory 的共享接口,面向深度研究 agent 等不可简单验证任务。

#Missing Old Logits in Asynchronous Agentic RL

  • 链接:https://arxiv.org/abs/2605.12070
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Post-training RL / Systems
  • 核心贡献:分析异步 agentic RL 中 old logits 缺失导致的 off-policy correction 语义错配,并讨论修复方法。

#Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

  • 链接:https://arxiv.org/abs/2605.07579
  • 来源:arXiv / HF Papers
  • 日期:2026-05-08,2026-05-11 更新
  • 类别:Post-training RL / RLVR
  • 核心贡献:使用 policy 模型前向过程中已有 hidden states 估计 value baseline,降低 PPO/GRPO 中 critic 或多 rollout 的额外成本。

#Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

  • 链接:https://arxiv.org/abs/2605.12483
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Post-training RL / Distillation
  • 核心贡献:提出 sparse reward 应用于探索生产力高的模型,dense token-level teacher reward 用于压缩到小模型的经验原则,重新解释 GRPO 与 on-policy distillation 的分工。

#The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

  • 链接:https://arxiv.org/abs/2605.11182
  • 来源:arXiv / HF Papers
  • 日期:2026-05-11
  • 类别:Post-training RL / Distillation
  • 核心贡献:系统研究 OPD/OPSD 何时有效、何时退化,指出 teacher 选择与 loss formulation 对数学推理等任务高度敏感。

#Reward Hacking in Rubric-Based Reinforcement Learning

  • 链接:https://arxiv.org/abs/2605.12474
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Post-training RL / Evaluation / Safety
  • 核心贡献:研究 rubric-based RL 中训练 verifier 与跨模型 judge panel 的偏差,区分 verifier failure 与 rubric-design limitations 两类 reward hacking 来源。

#On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

  • 链接:https://arxiv.org/abs/2605.11882
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:LLM Agent / Safety / Post-training RL
  • 核心贡献:提出 FATE,用 verifier 评分的失败轨迹生成修复监督信号,面向工具使用 agent 的轨迹级安全对齐。

#2.2 World Model / Model-based Agent

#MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

  • 链接:https://arxiv.org/abs/2605.09131
  • 来源:arXiv / HF Papers
  • 日期:2026-05-09
  • 类别:Model-based RL / LLM Agent / Tool-use
  • 核心贡献:将 world model 接入 MCP 工具生态,使 agent 能在复杂任务执行中进行预测式自动化。

#Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

  • 链接:https://arxiv.org/abs/2605.12178
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:World Model / Enterprise Agent / Tool-use
  • 核心贡献:指出企业系统动态常由租户特定、可读取、会变化的业务逻辑定义;当规则可在推理时读取时,运行时发现可能比离线学习世界模型更稳健。

研究判断:这篇对 model-based agent 是一个重要反例提醒:LLM agent 的 world model 不应盲目学习所有 transition。对于可查询、可检查、可执行的规则,agent 也许应学习“如何发现规则”,而不是把规则压进参数。

#World Action Models: The Next Frontier in Embodied AI

  • 链接:https://arxiv.org/abs/2605.12090
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Model-based RL / Embodied AI / World Model
  • 核心贡献:提出 World Action Models 范式:把未来状态预测与动作生成统一起来,建模 future states and actions 的联合分布。

#World Model for Robot Learning: A Comprehensive Survey

  • 链接:https://arxiv.org/abs/2605.00080
  • 来源:arXiv / HF Papers
  • 日期:2026-05 月上旬
  • 类别:World Model / Survey / Embodied AI
  • 核心贡献:系统综述机器人学习中的 world model,可作为 LLM agent model-based RL 的外部参照。

#2.3 Latent Reasoning / 推理结构

#LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

  • 链接:https://arxiv.org/abs/2605.11011
  • 来源:arXiv / HF Papers
  • 日期:2026-05-10,2026-05-11 更新
  • 类别:Latent Reasoning / Test-time Scaling
  • 核心贡献:把预训练 LLM 改造成 looped latent refinement 架构,在潜空间中迭代计算。

#Solve the Loop: Attractor Models for Language and Reasoning

  • 链接:https://arxiv.org/abs/2605.12466
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Latent Reasoning / Architecture
  • 核心贡献:提出 Attractor Models,通过固定点求解与隐式微分实现可自适应迭代深度的 latent refinement。

#Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

  • 链接:https://arxiv.org/abs/2605.12460
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Agent Architecture / Latent Reasoning / Tool-use
  • 核心贡献:指出当前 chat/agent 仍受单一消息流瓶颈限制,提出并行 thoughts、inputs、outputs 的 multi-stream LLM 方向。

#Teaching Language Models to Think in Code

  • 链接:https://arxiv.org/abs/2605.07237
  • 来源:arXiv / HF Papers
  • 日期:2026-05-08,2026-05-11 更新
  • 类别:Code Intelligence / Reasoning / Tool-use
  • 核心贡献:提出 ThinC:让代码本身承担推理过程,而不是让自然语言 CoT 调用代码作为事后验证器。

#A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning

  • 链接:https://arxiv.org/abs/2605.13687
  • 来源:arXiv
  • 日期:2026-05-13
  • 类别:Reasoning Theory / Scaling Laws
  • 核心贡献:在树状广播过程生成的合成语言上,用可分析的 k-gram ansatz 研究 context length 与 reasoning 的作用,并给出可证明收益。

#2.4 Agent Memory / Continual Learning / Context Compression

#δ-mem: Efficient Online Memory for Large Language Models

  • 链接:https://arxiv.org/abs/2605.12357
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Agent Memory / Context Compression
  • 核心贡献:为冻结 full-attention backbone 增加小型在线 associative memory state,用 delta-rule 更新并产生 attention low-rank corrections,以固定大小状态压缩历史信息。

#MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

  • 链接:https://arxiv.org/abs/2605.09530
  • 来源:arXiv / HF Papers
  • 日期:2026-05-10,2026-05-12 更新
  • 类别:Agent Memory / Privacy / Edge-Cloud Agent
  • 核心贡献:在边端识别隐私敏感 span,并用语义结构化 placeholder 供云端记忆处理,试图兼顾隐私与记忆可用性。

#LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

  • 链接:https://arxiv.org/abs/2605.12493
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Agent Memory / Evaluation
  • 核心贡献:评估 memory system 是否能帮助 agent 内化 web 环境中的 affordance、状态动态、工作流与失败模式,使其像“有经验的同事”。

#Useful Memories Become Faulty When Continuously Updated by LLMs

  • 链接:https://arxiv.org/abs/2605.12978
  • 来源:HF Papers
  • 日期:2026-05-13 榜单
  • 类别:Agent Memory / Continual Learning
  • 核心贡献:关注 LLM 持续更新记忆时,有用记忆如何逐渐变成错误或污染源;适合与 LongMemEval-V2 对读。

#Learning, Fast and Slow: Towards LLMs That Adapt Continually

  • 链接:https://arxiv.org/abs/2605.12484
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Continual Learning / Post-training
  • 核心贡献:提出不要把学习限制在 in-context 或 in-weights,而应让 LLM 在多时间尺度上结合快速上下文适应与慢速参数更新。

#2.5 Code Agent / Computer Use / Tool-use

#ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

  • 链接:https://arxiv.org/abs/2605.12481
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Computer Use Agent / Tool-use
  • 核心贡献:学习 GUI 原子动作与高层工具调用之间的路径选择,解决 hybrid action space 中何时点击、何时调用 API 的决策问题。

#Continual Harness: Online Adaptation for Self-Improving Foundation Agents

  • 链接:https://arxiv.org/abs/2605.09998
  • 来源:arXiv / HF Papers
  • 日期:2026-05-11
  • 类别:LLM Agent / Continual Learning / Self-improvement
  • 核心贡献:从 Gemini Plays Pokemon 等实验出发,提出面向长时程部分可观测决策的 continual harness,强调工具、记忆、规划与人类迭代共同形成自改进 agent。

#AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration

  • 链接:https://arxiv.org/abs/2605.11518
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Research Agent / AutoML / Systems
  • 核心贡献:面向高成本 LLM 实验配置自动化,试图让 research agent 从廉价设置学习,再优化昂贵实验配置。

#Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

  • 链接:https://arxiv.org/abs/2605.12411
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Multi-agent / Agent Modeling / Evaluation
  • 核心贡献:在谈判/交易游戏中,把少量历史交互、结构化状态与对话结合,预测陌生 agent 的下一步决策。

#2.6 预训练、数据与长上下文

#Efficient Pre-Training with Token Superposition

  • 链接:https://arxiv.org/abs/2605.06546
  • 来源:arXiv / HF Papers
  • 日期:2026-05-07
  • 类别:Pretraining / Efficiency
  • 核心贡献:提出 Token-Superposition Training,把多个连续 token 合并成 bag 并用 multi-hot cross entropy 训练,再恢复到标准 token 训练,以提高 pretraining data throughput per FLOP。

#A Causal Language Modeling Detour Improves Encoder Continued Pretraining

  • 链接:https://arxiv.org/abs/2605.12438
  • 来源:arXiv / HF Papers
  • 日期:2026-05-12
  • 类别:Continual Pretraining / Encoder / Training Mechanism
  • 核心贡献:在 domain adaptation 时先做 CLM detour 再短暂 MLM decay,可提升 biomedical encoder continued pretraining 效果,并分析 CLM 对低层 transformer 的影响。

#FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

  • 链接:https://arxiv.org/abs/2605.09932
  • 来源:arXiv / HF Papers
  • 日期:2026-05-11
  • 类别:Long Context / Fine-tuning
  • 核心贡献:指出长上下文 SFT 中 attention budget 被位置偏置与 sink 稀释,提出 dilution-aware bilevel optimization 改善长上下文能力学习。

#Negation Neglect: When models fail to learn negations in training

  • 链接:https://arxiv.org/abs/2605.13829
  • 来源:arXiv
  • 日期:2026-05-13
  • 类别:Training Data / Model Behavior / Factuality
  • 核心贡献:发现 finetuning 在反复声明“某 claim 为假”的文档上,模型反而可能把该 claim 当真,说明训练数据中的否定语义在参数更新中可能被忽略。

研究判断:这对“预训练数据如何塑造能力/信念”很重要:模型可能学习到实体-事件共现,而非逻辑否定关系。对数据去重、反事实数据、辟谣语料训练都提出了风险。


#3. 今日最值得精读的 3 篇

  1. Missing Old Logits in Asynchronous Agentic RL

链接:https://arxiv.org/abs/2605.12070

理由:非常贴近真实 LLM Agent RL 系统,能帮助判断异步 rollout + PPO/GRPO 的实验是否可信。

  1. MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

链接:https://arxiv.org/abs/2605.09131

理由:直接连接 MCP 工具生态与 world model,是 LLM model-based agent 的重要线索。

  1. LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

链接:https://arxiv.org/abs/2605.11011

理由:与 latent-space reasoning 强相关,而且关注如何复用 pretrained LLM,而非从头训练新架构。

备选精读:RubricEM(长轨迹 research agent RL)、MinT(agent 训练/服务基础设施)、δ-mem(在线记忆压缩)。


#4. 今日最值得跟进的 3 个 repo/model/dataset

GitHub 检索使用 GitHub Search API,限定 2026-05-08 之后创建的新仓库并按 stars 排序;新仓库质量需要后续人工复核。

  1. sontianye/AgenticQwen

- 链接:https://github.com/sontianye/AgenticQwen

- 类别:Code Agent / Agentic RL

- 说明:仓库描述为复现 AgenticQwen(arXiv:2604.21590),包含 dual-flywheel data synthesis + GRPO RL training for agentic small LLMs。适合跟进小模型 agentic RL 的开源复现路径。

  1. johunsang/semble_rs

- 链接:https://github.com/johunsang/semble_rs

- 类别:Code Agent / Tooling / Code Search

- 说明:面向 AI-agent-native code search,结合 BM25、semantic search、Tree-sitter AST chunking、dependency/impact analysis。对代码 Agent 的工具环境设计有参考价值。

  1. NeuraLiying/Awesome-World-Models

- 链接:https://github.com/NeuraLiying/Awesome-World-Models

- 类别:World Model / Survey Resource

- 说明:新建 world model 论文清单,覆盖视频生成、自动驾驶、机器人、LLM、3D/4D、物理模拟和 benchmark。可作为追踪 LLM Agent world model 迁移路径的资料入口。

补充:HF Papers 2026-05-13 上的 MinT 若后续公开代码/系统 demo,值得第一时间跟进;ToolCUA 若开放数据/trajectory,也适合纳入代码/GUI agent 训练数据研究。


#5. 研究机会 / Ideas

#Idea 1:把 MCP 工具环境建模成“可查询规则 + 可学习残差”的 world model

Do Enterprise Systems Need Learned World Models? 提醒我们,很多软件/企业环境的规则不是隐含物理规律,而是可读取配置、API schema、权限策略、业务逻辑。可以做一个 LLM Agent Dreamer 变体:

  • 显式读取 schema / docs / config 作为 symbolic dynamics;
  • 学一个 residual world model 预测文档没写清的失败模式、latency、权限边界、UI 状态变化;
  • planning 时同时使用可验证规则和 learned residual。

这比“全靠神经 world model 模拟工具返回”更符合软件 agent 的环境结构。

#Idea 2:异步 agentic RL 的可复现实验账本

Missing Old Logits 与 MinT 都说明:agent RL 的系统元数据会强烈影响算法结论。可以设计一个“RL trajectory accounting schema”:

  • 每条 trajectory 记录 base model hash、adapter revision、inference engine、sampling config、old logits availability、tool environment version;
  • 区分 training-inference discrepancy 与 policy staleness;
  • 在同一任务上比较 naive PPO/GRPO、带旧 logits correction、无旧 logits repair 的差异。

这会非常适合写成实验性论文或系统分析文章。

#Idea 3:长期记忆的“有用性—污染”动态评测

δ-mem、LongMemEval-V2、Useful Memories Become Faulty When Continuously Updated by LLMs 共同指向一个问题:记忆不是越多越好,也不是更新越频繁越好。可以做代码 Agent 场景:

  • 环境:同一代码库多轮 issue 修复;
  • memory:保存 API 约定、测试失败、模块依赖、历史 patch;
  • 干扰:代码库重构、接口变更、错误历史结论;
  • 评测:memory 是否帮助 agent 像“老同事”一样工作,还是把旧错误带入新任务。

这能自然连接 agent pretraining data、context compression、continual learning 与 code intelligence。


#6. 检索限制说明

  • Hugging Face Papers 页面可访问,并用于抓取 2026-05-13 榜单。
  • arXiv abs 页面可访问;arXiv API 在批量检索时出现 429/timeout,因此本文优先使用已验证的 abs 页面标题、摘要、日期。
  • X/Twitter 未直接访问;为避免引入未核验热点,本文未引用推特传闻,而使用 arXiv、HF Papers 与 GitHub API 替代。