Tag Archive
标签:evaluation
这里整理所有带有「evaluation」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
evaluation
共 1 篇
主题归档 · 2026-06-30
Cybench:用 CTF 任务衡量 LLM Agent 的真实网络安全能力
详细解读 Cybench 这个开放网络安全 Agent benchmark:它如何把真实 CTF 任务封装成可执行环境,如何用子任务和人类首解时间衡量能力,以及它对长轨迹 Agent 评测的启发与局限。
benchmark
llm-agent
cybersecurity
evaluation
cybench