Tag Archive

标签:cybench

这里整理所有带有「cybench」标签的文章,方便按主题快速回看。

cybench

共 1 篇
主题归档 · 2026-06-30

Cybench:用 CTF 任务衡量 LLM Agent 的真实网络安全能力

详细解读 Cybench 这个开放网络安全 Agent benchmark:它如何把真实 CTF 任务封装成可执行环境,如何用子任务和人类首解时间衡量能力,以及它对长轨迹 Agent 评测的启发与局限。
benchmarkllm-agentcybersecurityevaluationcybench