★★★★★ · 主题归档 · 2026-06-30
详细解读 Cybench 这个开放网络安全 Agent benchmark:它如何把真实 CTF 任务封装成可执行环境,如何用子任务和人类首解时间衡量能力,以及它对长轨迹 Agent 评测的启发与局限。
★★★★★ · 论文精读 · 2026-06-26
这篇论文把 Agent 的交互环境本身建模成一个语言世界模型:既可以作为可控模拟器给 Agent 做 RL,也可以作为 Agent 的预训练 warm-up,让模型在行动前学会预测下一步环境反馈。
★★★★★ · 主题归档 · 2026-06-24
Agents' Last Exam 试图把 Agent 评测从知识问答和短交互推进到真实职业工作流、长时程执行和可验证交付物。
★★★★★ · 论文精读 · 2026-06-23
详解 arXiv 2606.09828v1:Mirage 如何用 latent spatial memory 替代 RGB 点云缓存,让视频世界模型在保持 3D 一致性的同时显著降低速度和显存开销。
★★★★★ · 论文精读 · 2026-06-21
"详解 arXiv 2606.17024:ExpRL 如何用参考解答构造 dense reward,解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"