#2026-07-01 AI/LLM 最新论文与研究热点简报

检索时间:2026-07-01 08:00 左右(Asia/Shanghai)

主要覆盖:Hugging Face Daily Papers 2026-06-29 / 2026-06-30、arXiv 链接、论文项目页、GitHub / Hugging Face API。

说明:arXiv API 在本次检索中多次超时 / 429,故以 Hugging Face Daily Papers 页面中的 arXiv 元数据、项目页与 GitHub 仓库为主交叉验证。X/Twitter 未作为一手来源使用(无稳定登录/API 环境),用 HF、项目页、GitHub、arXiv 替代。

#0. 今日判断:Agent 研究正在从“能做任务”转向“长程交互中的可控、可归因、可停止、可评测”

过去 24-48 小时最值得 wenjun 关注的不是单个 benchmark,而是一组很一致的信号:

  1. Agent horizon scaling 开始被当作和参数量 scaling 并列的能力来源:Agents-A1 直接把 thesis 写成 “Scaling the Horizon, Not the Parameters”。
  2. 长程 Agent 评测开始逼近真实工作流:OSWorld2.0、TUA-Bench、SWE-Together 都在把任务从静态、短链条、一次性 prompt,推向长 horizon、交互式用户会话、真实 terminal / GUI / repo workflow。
  3. Agentic RL 的 credit assignment 正在细化到工具调用 / 多 Agent 连接 / 交互深度:TACO、GBC、ProMSA 等都在不同场景里试图解决“到底是哪一步工具调用或哪个子 Agent 带来最终收益”。
  4. “何时不做”成为 Agent 能力的一部分:Agentic Abstention 把停止、拒绝、继续搜集信息建模成 sequential decision problem,这对长轨迹 RL 和真实部署都很关键。
  5. 训练系统层面也在补齐长程 post-training 的瓶颈:AsyncOPD、异步 pipeline pretraining、KV/context compression 相关工作都指向一个问题:如果 Agent / reasoning 训练需要大量 rollout,系统吞吐、staleness、上下文预算会成为核心约束。

#1. 重点论文 / 动态筛选

#1. Agentic Abstention: Do Agents Know When to Stop Instead of Act?

  • 类别:LLM Agent / Evaluation / Safety / Sequential Decision
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-27
  • 链接arXiv项目页
  • 一句话贡献:将 Agent 的“是否应该继续行动、回答或停止/弃权”定义为一个多步序贯决策问题,而不是传统单轮 abstention。

为什么值得关注

长程 Agent 的失败往往不是“某一步工具调用错了”,而是“在问题已不充分、环境已不可达、继续探索只会放大成本时还在行动”。这篇工作的价值在于把 abstention 从 QA 场景推进到 web shopping、terminal、QA 等交互环境,评估 13 个 LLM-as-agent 系统与 2 个 agent harness。

与 wenjun 研究方向的关系

如果你做 LLM model-based RL / Dreamer for Agent,abstention 可以视作 world model 不确定性下的终止动作;它对应的不是普通 refusal,而是“继续探索的价值是否超过成本”。这很适合和 value of information、uncertainty-aware planning、long-horizon RL 的 termination policy 结合。


#2. Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

  • 类别:LLM Agent / Long-horizon Agent / Post-training / Agent Data
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-29
  • 链接arXiv项目页GitHubHF model
  • 一句话贡献:提出 35B MoE Agentic Model Agents-A1,通过平均 45K tokens 的长程 knowledge-action-verifier 轨迹、三阶段训练、多 teacher domain-routed on-policy distillation,声称用 horizon scaling 达到接近 trillion-parameter agent 性能。

为什么值得关注

这篇直接把“Agent 能力来自更长、更异质、更可验证的行动轨迹”作为核心 scaling 轴。它不是单纯扩大 base model,而是扩大 agent horizon、任务域与 verifier 反馈的覆盖。

与 wenjun 研究方向的关系

这和你关注的“agent 预训练数据如何塑造能力”高度相关:如果 average trajectory length 到 45K,模型学到的可能不只是 instruction following,而是跨 observation-action-verifier 的长期结构。值得追问:这种长轨迹数据中的 latent state / subgoal 是否可以显式建模?能否用 Dreamer-style latent dynamics 压缩长轨迹并做 planning?


#3. TACO: Tool-Augmented Credit Optimization for Agentic Tool Use

  • 类别:LLM Agent / Tool-use / Post-training RL / Credit Assignment / GRPO
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-29
  • 链接arXiv
  • 一句话贡献:提出 TACO,一个面向 code-tool / multimodal agent 的 GRPO 变体,用两个 advantage channel 给工具调用分配 credit,尤其通过 Differential Answer-Probe Reward 判断某个工具调用对最终回答是否真的有贡献。

为什么值得关注

工具调用型 Agent 的核心难题是 outcome reward 太粗:最后答对了,不代表每次 tool call 都有用;最后答错了,也可能某些中间工具调用是正确的。TACO 试图用“有/无该工具调用时模型预测差异”来做 judge-free 的工具贡献估计。

与 wenjun 研究方向的关系

这对长轨迹 Agent RL 很关键:如果要训练 self-evolving code agent 或 tool-use agent,credit assignment 不能只落在最后 pass/fail。TACO 的思路可被扩展到代码 Agent:比如每次 grep / read_file / test / patch 的边际贡献,用 probe 或 counterfactual rollout 估计。


#4. OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

  • 类别:LLM Agent / Computer-use / Evaluation / Long-horizon
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-28
  • 链接arXiv项目页GitHubHF dataset
  • 一句话贡献:推出 108 个长程真实 computer-use workflow;论文摘要称人类中位完成时间约 1.6 小时,Claude Opus 4.7 平均约 318 次 tool calls,显著长于 OSWorld 1.0。

为什么值得关注

OSWorld2.0 把 computer-use agent 从短任务推到真实 workflow:跨源推理、动态环境、流式交互、长时间状态维护。它是目前最贴近“真实桌面/浏览器/文件工作流”的长 horizon benchmark 之一。

与 wenjun 研究方向的关系

如果做 model-based RL for LLM Agent,OSWorld2.0 这类任务非常适合作为 world model / latent state tracking 的实验场:状态不可完全观测、动作空间复杂、成本高、回报稀疏,正好需要模型预测、子目标分解和记忆压缩。


#5. SWE-Together: Evaluating Coding Agents in Interactive User Sessions

  • 类别:Code Agent / Evaluation / Interactive Coding / User Simulation
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-29
  • 链接arXiv项目页GitHub
  • 一句话贡献:从真实 user-agent coding sessions 中重构 109 个 repo-level 多轮任务,并用 reactive LLM-based user simulator replay 用户意图和反馈。

为什么值得关注

现有 SWE-bench 风格任务通常把完整需求一次性给 Agent,但真实 coding assistant 是用户不断补充约束、纠正误解、协同探索。SWE-Together 把“交互式意图理解”纳入评测。

与 wenjun 研究方向的关系

这正对应“从指令理解走向意图理解”。如果你要研究 code agent 的 agentic RL,SWE-Together 提供了比静态 patch 更接近真实产品形态的反馈循环:最终 repo correctness + corrective feedback turns 都可作为 reward / cost 信号。


#6. TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents

  • 类别:LLM Agent / Terminal-use / Evaluation / Tool-use
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-26
  • 链接arXivGitHub
  • 一句话贡献:提出 120 个 general-purpose terminal-use tasks,覆盖文档编辑、邮件管理、live-web 信息检索,以及 PhD 级科学/工程 workflow。

简评

Terminal 是 coding agent 与 research agent 的共同接口。TUA-Bench 的意义在于摆脱“terminal=写代码/跑测试”的窄定义,转向更宽的 shell-native digital work。对 Hermes / OpenHands / Claude Code 类系统尤其值得关注。


#7. AsyncOPD: How Stale Can On-Policy Distillation Be?

  • 类别:Post-training RL / On-policy Distillation / Systems / Reasoning Models
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-23
  • 链接arXivGitHub
  • 一句话贡献:系统研究 asynchronous on-policy distillation 中 stale-policy data 的影响,关注 rollout 与 learner 解耦后 teacher feedback / KL cache 如何影响训练稳定性。

简评

LLM reasoning / agent post-training 中 rollout 成本越来越高,异步化几乎不可避免。这篇对你关心的长轨迹 RL 系统实现很有价值:如果 rollout 需要几十 K tokens,on-policy 的“新鲜度”会成为吞吐与稳定性的核心 trade-off。


#8. One-Step Gradient Delay is Not a Barrier for Large-Scale Asynchronous Pipeline Parallel LLM Pretraining

  • 类别:Systems / Pretraining / Pipeline Parallelism / Training Mechanism
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-29
  • 链接arXiv
  • 一句话贡献:挑战“一步梯度延迟会导致大规模异步 pipeline LLM 预训练不稳定”的常见假设,指出退化强依赖 optimizer choice,而非 staleness 本身不可行。

简评

如果成立,这对基础模型训练系统很重要:异步 pipeline 能减少 bubble,但长期被 staleness 担忧限制。它和 AsyncOPD 一起说明:训练大模型/Agent 时,系统异步带来的 stale signal 并非绝对不能用,关键是优化器和缓存/延迟设计。


#9. ReFreeKV: Towards Threshold-Free KV Cache Compression

  • 类别:Context Compression / Inference / Long-context / Systems
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 页面显示 2502.16886,HF 记录发布日期 2026-06-26;GitHub 2026-06-30 更新
  • 链接arXivGitHub
  • 一句话贡献:面向 KV cache pruning,提出 threshold-free 的压缩目标,避免为不同输入/领域预先调 KV budget threshold。

简评

长上下文 Agent 的 bottleneck 不只是模型是否会推理,还包括历史观察/工具结果如何压缩。ReFreeKV 的方向值得和“通用上下文压缩器”关联:真正可部署的 Agent 不能依赖每个任务手调压缩阈值。


#10. GUICrafter: Weakly-Supervised GUI Agent Leveraging Massive Unannotated Screenshots

  • 类别:GUI Agent / Agent Data / Weak Supervision / Pretraining Data
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-29
  • 链接arXivGitHub
  • 一句话贡献:利用大规模未标注 screenshots 做弱监督 GUI agent 训练,降低对昂贵人工 GUI action annotation 的依赖。

简评

这和“agent 预训练数据如何塑造能力”直接相关。GUI 数据不像网页文本可自然爬取 action trace;GUICrafter 的核心问题是如何从静态 screenshot 中挖出可训练的 grounding / action prior。


#11. Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction

  • 类别:Multimodal Agent / GUI Agent / Video Understanding / Tool-use
  • 来源与日期:Hugging Face Daily Papers,2026-06-30;arXiv 论文发布日期 2026-06-28
  • 链接arXiv项目页GitHub
  • 一句话贡献:提出 VG-GUIBench,评估 MLLM-based GUI agents 是否能从视频教程中学习流程并迁移到长程 GUI 任务,同时提出 TASKER 做通用 keyframe extraction。

简评

这篇把“视频理解”从 QA 推向 procedural skill learning:Agent 不只是回答视频内容,而是把教程转为可执行 GUI 行为。对 agent pretraining data 来说,公开视频教程可能是低成本行为先验来源。


#12. Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

  • 类别:Latent Reasoning / Interpretability / Representation
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-05-07;HF 当日热度较高
  • 链接arXiv项目页GitHub
  • 一句话贡献:试图用四个 axiom 形式化 LLM 中“latent thoughts / thought representation”的性质。

简评

虽然不是 24 小时内新发,但在 6 月 29 日 HF Daily Papers 中热度高,且与 wenjun 近期关注的 latent-space reasoning 高度相关。建议重点看它如何定义 thought representation 的可分离性、可组合性或可读出性;这可能为“潜空间推理是否真的存在”提供更严格的操作化定义。


#13. AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents

  • 类别:LLM Agent / Continual Learning / Long-horizon / World Modeling
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-05-29;GitHub 近期仍更新
  • 链接arXiv项目页GitHub
  • 一句话贡献:构造开放式长程 text game,用于评测 test-time continual learning agents 的探索、世界知识获取、episodic memory 和长期规划。

简评

这篇非常适合作为 model-based RL for LLM Agent 的环境雏形:文本世界可程序生成、有动态、可持续学习、可观察到 memory / planning failure。相比 GUI/OSWorld,text game 更便于快速迭代算法。


#14. GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems

  • 类别:Multi-Agent / Credit Assignment / Agent Optimization
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-26
  • 链接arXivGitHub / AgentChord
  • 一句话贡献:把多 Agent 系统建模为计算图,用 gradient-based connection weights 在 token level 估计各 Agent 输出对下游结果的影响。

简评

和 TACO 一样,这篇的核心是 credit assignment,只不过对象从 tool call 变成 multi-agent connection。对自演化 Agent 系统而言,关键不是堆更多角色,而是知道哪个角色/哪段通信真的有用。


#15. ProMSA: Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

  • 类别:Multimodal Agent / Tool-use / RL / Search
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-26
  • 链接arXiv项目页GitHub
  • 一句话贡献:提出 progressive multimodal search agent,在 image search、text search、stop 之间迭代选择,并用 TN-GSPO 这类考虑 generation length 与 tool-interaction depth 的序列级 RL 目标训练。

简评

值得注意的是它把 stop action、tool budget、deduplication、interaction depth 都纳入训练目标。这与 Agentic Abstention 和 TACO 的问题意识一致:Agent 不只是“会调工具”,还要知道何时调、调几次、每次调的收益。


#16. How Much Static Structure Do Code Agents Need? A Study of Deterministic Anchoring

  • 类别:Code Agent / Repository Understanding / Static Analysis / Evaluation
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-25
  • 链接arXiv
  • 一句话贡献:研究轻量静态分析结构(调用图、继承层级、配置依赖等)作为 deterministic anchors 注入给代码 Agent 后,对定位、轨迹和 run-to-run stability 的影响。

简评

这篇很对代码 Agent 的真实痛点:Agent 经常靠 keyword search 随机游走。静态结构未必让模型“更聪明”,但能让探索更稳定、可复现,降低轨迹方差。对 agentic RL 来说,这也可能显著降低 reward variance。


#17. To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair

  • 类别:Code Agent / Program Repair / Tool-use / Cost-aware Evaluation
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-25
  • 链接arXiv
  • 一句话贡献:分析 LLM program repair 中 generate-run-revise 范式的执行成本与收益,覆盖 SWE-bench leaderboard traces 以及 3,000 次端到端 repair attempts。

简评

对 code agent RL 很有启发:执行测试不是免费动作,reward 应同时考虑 correctness 与 execution cost。后续可以把“是否运行测试、运行哪个测试、何时停止运行”建模为 cost-aware policy。


#18. Simplified Sparse Attention via Gist Tokens

  • 类别:Context Compression / Sparse Attention / Continued Pretraining
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 记录 2604.20920,HF 记录近期更新
  • 链接arXiv
  • 一句话贡献:通过 continued pretraining 让 gist tokens 压缩 chunk 信息,推理时先用 gist tokens 选 top-k chunk,再展开原始 tokens,实现无需架构修改的 sparse attention。

简评

这比单纯 KV pruning 更接近“可训练的上下文压缩器”:压缩 token 是模型内部学出来的。对长程 Agent 来说,可以把 observation history / tool outputs 分块压缩成 gist tokens,再按当前 query 动态展开。


#19. PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

  • 类别:World Model / Embodied AI / RL / Evaluation
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-26
  • 链接arXiv项目页GitHub
  • 一句话贡献:针对视频世界模型在物理交互中的不稳定,提出关注 physics-informative regions 的训练框架增强物理一致性。

简评

虽然偏 embodied/video world model,但对 Dreamer for LLM Agent 有类比价值:world model 的错误常集中在“任务关键交互区域”,而不是平均像素/平均 token。LLM Agent 的世界模型也应关注 action-relevant state,而不是完整复述观察。


#20. Qwen-Image-2.0-RL Technical Report

  • 类别:Post-training RL / RLHF / OPD / Generative Model
  • 来源与日期:Hugging Face Daily Papers,2026-06-29;arXiv 论文发布日期 2026-06-25
  • 链接arXiv
  • 一句话贡献:对 Qwen-Image-2.0 diffusion model 做 RLHF 与 on-policy distillation,构建 task-specific composite reward models,并用 GRPO-based RL 训练提升图像质量和指令跟随。

简评

虽然不是 LLM Agent,但 reward model + GRPO + OPD pipeline 对 post-training 机制有参考价值,尤其是它如何组合多个 reward 维度并避免 RL 破坏预训练知识。


#2. 今日最值得精读的 3 篇

  1. Agents-A1: Scaling the Horizon, Not the Parameters

精读理由:最直接击中“Agent 能力形成机制”:长轨迹、verifier outcomes、多 teacher on-policy distillation 如何替代单纯参数扩张。

  1. TACO: Tool-Augmented Credit Optimization for Agentic Tool Use

精读理由:如果你要做长轨迹 Agent RL,工具调用级 credit assignment 是绕不过去的问题;TACO 提供了一个 judge-free / counterfactual-ish 的思路。

  1. Agentic Abstention: Do Agents Know When to Stop Instead of Act?

精读理由:把“停止/弃权”纳入 Agent sequential decision,对长程部署和 model-based planning 都很核心。

备选:如果今天更想看 code agent,则把第三篇换成 SWE-Together;如果更想看 benchmark/environment,则换成 OSWorld2.0


#3. 今日最值得跟进的 3 个 repo / model / dataset

  1. InternScience/Agents-A1

- GitHub:https://github.com/InternScience/Agents-A1

- HF model:https://huggingface.co/InternScience/Agents-A1

- 跟进点:长程 agentic trajectories、domain-routed teacher、on-policy distillation recipe 是否公开到可复现程度。

  1. xlang-ai/OSWorld-V2 + HF datasets

- GitHub:https://github.com/xlang-ai/OSWorld-V2

- HF tasks:https://huggingface.co/datasets/xlangai/osworld_v2_tasks

- 跟进点:108 个真实长程 workflows 是否可用于训练/评测 model-based agent、memory compression、cost-aware tool policy。

  1. Togetherbench/SWE-Together

- GitHub:https://github.com/Togetherbench/SWE-Together

- 项目页:https://togetherbench.com

- 跟进点:真实 user-agent coding sessions 的 replay 机制、reactive user simulator、corrective feedback turns 指标。

补充可关注:


#4. 研究机会 / Idea

#Idea 1:把 Agentic Abstention 做成 model-based Agent 的 uncertainty-aware termination policy

现有 Agent 通常只学“下一步做什么”,较少系统学习“是否应该继续做”。可以构造一个 Dreamer-style / model-based RL 框架:

  • latent state 维护任务进展、环境可达性、信息缺口;
  • world model 预测继续搜索/执行后的 observation distribution 与成功概率;
  • policy 在 answer / abstain / gather-more-info / act 之间选择;
  • reward 同时惩罚错误回答、无效工具调用成本和过早放弃。

可用 Agentic Abstention + OSWorld/TUA-Bench 子集做初始实验。

#Idea 2:代码 Agent 的 tool-call credit assignment:从 TACO 扩展到 test/search/patch 粒度

TACO 的 Differential Answer-Probe Reward 可迁移到代码 Agent:

  • 对每次 read_file / grep / run_test / patch 建立 counterfactual:如果没有这次调用,模型下一步定位/修复概率是否下降?
  • 用 pass/fail + probe prediction 改善 sparse reward;
  • 将 execution cost 纳入 advantage,避免“盲目跑测试”。

可结合 “To Run or Not to Run” 与 “Deterministic Anchoring” 做一个 cost-aware SWE-agent 训练/评测框架。

#Idea 3:长轨迹 Agent 的“gist-state”压缩:把 Simplified Sparse Attention 与 Agent memory 结合

长程 Agent 的 context 不是普通长文本,而是 action-observation-result 的结构化日志。可以训练专门的 gist tokens:

  • 每个 episode chunk 压成若干 latent/gist tokens;
  • 当前 query / subgoal 只展开相关 chunks;
  • 对展开选择加入 RL 或 verifier feedback;
  • 评估在 OSWorld2.0 / TUA-Bench / AgentOdyssey 上的性能-成本曲线。

这条线能连接 wenjun 关注的 通用上下文压缩器、latent-space reasoning、long-horizon agent RL


#5. 快速索引表

标题类别日期链接一句话
Agentic AbstentionLLM Agent / Evaluation2026-06-27 / HF 06-30arXiv把 Agent 是否继续行动/停止定义为序贯决策问题。
Agents-A1LLM Agent / Long-horizon2026-06-29 / HF 06-30arXiv / GitHub用 horizon scaling 和长程轨迹训练 35B agent。
TACOTool-use / RL2026-06-29 / HF 06-30arXiv给工具调用做 judge-free credit assignment 的 GRPO 变体。
OSWorld2.0Computer-use / Evaluation2026-06-28 / HF 06-30arXiv / GitHub108 个长程真实 computer-use workflows。
SWE-TogetherCode Agent / Evaluation2026-06-29 / HF 06-30arXiv / GitHub从真实 user-agent coding sessions 重构交互式 coding benchmark。
TUA-BenchTerminal Agent2026-06-26 / HF 06-30arXiv / GitHubgeneral-purpose terminal-use agent benchmark。
AsyncOPDPost-training / Systems2026-06-23 / HF 06-30arXiv / GitHub系统研究异步 OPD 中 stale-policy data 的影响。
ReFreeKVContext Compression2026-06-26 / HF 06-30arXiv / GitHubthreshold-free KV cache compression。
GUICrafterGUI Agent / Data2026-06-29 / HF 06-30arXiv / GitHub用大规模未标注截图弱监督训练 GUI Agent。
Formalizing Latent ThoughtsLatent Reasoning2026-05-07 / HF 06-29arXiv / Project形式化 LLM latent thought representation 的 axioms。
AgentOdysseyContinual Agent / World Modeling2026-05-29 / HF 06-29arXiv / GitHub用开放式长程 text game 评测 test-time continual learning agents。
Deterministic AnchoringCode Agent2026-06-25 / HF 06-29arXiv静态结构作为代码 Agent 的 deterministic anchors。
To Run or Not to RunCode Agent / Tool Cost2026-06-25 / HF 06-29arXiv分析程序修复中执行测试的成本收益。
Simplified Sparse Attention via Gist TokensContext CompressionHF 06-29arXivcontinued pretraining 学出 gist tokens 做 sparse attention。

#6. 明日跟踪建议

  • 看 Agents-A1 是否释放训练数据格式或 trajectory examples;如果有,优先分析 trajectory schema。
  • 看 OSWorld2.0 / SWE-Together 是否已有 baseline logs,可用于研究 failure mode 和 reward design。
  • 继续追 TACO 是否放代码;如果没有,可先复现其 DAPR 思想到 toy code-tool environment。