#GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比
更新时间:2026-05-13。
数据来源:BenchLM 结构化页面、OpenRouter 公开模型价格接口、LLM Stats / 官方发布页信息的交叉检索。
注意:这些 2026 新模型的许多分数来自聚合站对官方表格的映射,不等价于同一机构统一复测;价格来自 OpenRouter 的公开 API 价格,可能包含平台加价、补贴和产品策略。
#0. 先说结论
如果只看能力上限,GPT-5.5 是最强 general agent;如果看代码工程能力,GPT-5.4、GPT-5.3 Codex、GLM-5.1 是第一梯队;如果把价格放进来,DeepSeek V4 Flash / Pro 和 GLM-5.1 的性价比非常突出。
更具体地说:
- 最强 Agent 主控:GPT-5.5,其 Agentic score 最高,Terminal-Bench、OSWorld、MCP、TAU 类任务都强。
- 最均衡通用模型:GPT-5.4,知识、代码、数学、Agent 都没有明显短板。
- 代码 Agent 专用强模型:GPT-5.3 Codex,SWE Verified、LiveCodeBench、Terminal-Bench 都强。
- 开放/国产 coding-agent 重点模型:GLM-5.1,SWE-Pro / SWE-Rebench / Coding Arena 很亮眼,价格也远低于 OpenAI 顶级模型。
- 低成本 worker:DeepSeek V4 Flash,绝对能力不在顶层,但价格极低。
- 需要谨慎的点:DeepSeek V4 普通 Pro/Flash 与 High/Max reasoning-effort 档差异很大,不能把普通档数学分数泛化到整个 DeepSeek V4 家族。
#1. Benchmark 总表
表中 综合 / Agent / 代码 / 知识 / 数学 / 推理 为 BenchLM 的归一化 category score;后面的 benchmark 是原始分数或官方映射分数。— 表示该模型未公开或未找到可比数据,不代表 0 分。
| 模型 | 综合 | Agent | 代码 | 知识 | 数学 | 推理 | Terminal | Browse | OSWorld | MCP | SWE-V | SWE-Pro | LCB | GPQA | MMLU-Pro | HLE | AIME25 | MATH500 | FrontierMath |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.5 | 91 | 98.3 | 84.2 | 98.1 | 96.9 | 96.5 | 82 | 84.4 | 78.7 | 75.3 | — | 58.6 | — | 93.6 | — | 52.2 | — | — | 51.7 |
| GPT-5.4 | 89 | 87.6 | 89.3 | 99.3 | 94.4 | 95.6 | 75.1 | 82.7 | 75 | 70.6 | 84 | 57.7 | 84 | 92.8 | 93 | 52.1 | 99 | 99 | 47.6 |
| GPT-5.4 mini | 71 | 76.8 | 78.4 | 82.3 | 92.3 | 17.5 | 60 | — | 72.1 | 57.7 | — | 54.4 | — | 88 | — | 41.5 | — | 97.4 | — |
| GPT-5.3 Codex | 87 | 79.9 | 88.7 | 93 | 100 | 93.5 | 77.3 | 88 | 64.7 | — | 85 | 56.8 | 85 | 97 | 90 | 44 | 98 | 99 | — |
| GPT-5.2 | 81 | 62.1 | 82.4 | 92.2 | 81.7 | 84.5 | — | 65.8 | 47.3 | — | 80 | 55.6 | 79 | 92.4 | 88 | 42 | 98 | 98 | 40.7 |
| DeepSeek V4 Pro | 70 | 69 | 66.5 | 52.1 | — | — | 59.1 | — | — | 69.4 | 73.6 | 52.1 | 56.8 | 72.9 | 82.9 | 7.7 | — | — | — |
| DeepSeek V4 Flash | 59 | 50 | 63.9 | 46 | — | — | 49.1 | — | — | 64 | 73.7 | 49.1 | 55.2 | 71.2 | 83 | 8.1 | — | — | — |
| GLM-5.1 | 83 | 81 | 83.9 | 85.1 | 89.6 | 63.9 | 63.5 | 68 | — | 71.8 | 77.8 | 58.4 | 52 | 86 | 85.7 | 52.3 | 93.3 | 97.4 | — |
#2. 价格总表
价格单位均为 美元 / 1M tokens。1:1均价 是输入和输出价格简单平均;1入3出均价 模拟偏输出型 workload:1 份输入 + 3 份输出。
| 模型 | OpenRouter ID | 上下文 | 输入$/1M | 输出$/1M | 缓存读$/1M | 1:1均价 | 1入3出均价 | 综合 | Agent | 代码 |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-5.5 | openai/gpt-5.5 | 1M | 5 | 30 | 0.5 | 17.5 | 23.8 | 91 | 98.3 | 84.2 |
| GPT-5.4 | openai/gpt-5.4 | 1.05M | 2.5 | 15 | 0.2 | 8.8 | 11.9 | 89 | 87.6 | 89.3 |
| GPT-5.4 mini | openai/gpt-5.4-mini | 400K | 0.8 | 4.5 | 0.1 | 2.6 | 3.6 | 71 | 76.8 | 78.4 |
| GPT-5.3 Codex | openai/gpt-5.3-codex | 400K | 1.8 | 14 | 0.2 | 7.9 | 10.9 | 87 | 79.9 | 88.7 |
| GPT-5.2 | openai/gpt-5.2 | 400K | 1.8 | 14 | 0.2 | 7.9 | 10.9 | 81 | 62.1 | 82.4 |
| DeepSeek V4 Pro | deepseek/deepseek-v4-pro | 1M | 0.4 | 0.9 | 0.0 | 0.7 | 0.8 | 70 | 69 | 66.5 |
| DeepSeek V4 Flash | deepseek/deepseek-v4-flash | 1M | 0.1 | 0.3 | 0.0 | 0.2 | 0.2 | 59 | 50 | 63.9 |
| GLM-5.1 | z-ai/glm-5.1 | 203K | 1.0 | 3.5 | 0.5 | 2.3 | 2.9 | 83 | 81 | 83.9 |
#3. 性价比粗算
下面只是一个非常粗的经济指标:用 BenchLM 归一化分数除以 1入3出 价格。它不能替代真实 workload 评估,但能说明“能力分数 / API 价格”的大致量级。
| 模型 | 1入3出$/1M | 综合/$ | Agent/$ | 代码/$ |
|---|---|---|---|---|
| DeepSeek V4 Flash | 0.2 | 240.8 | 204.1 | 260.8 |
| DeepSeek V4 Pro | 0.8 | 92.0 | 90.6 | 87.4 |
| GLM-5.1 | 2.9 | 28.7 | 28.1 | 29.1 |
| GPT-5.4 mini | 3.6 | 19.9 | 21.6 | 22.0 |
| GPT-5.3 Codex | 10.9 | 8.0 | 7.3 | 8.1 |
| GPT-5.4 | 11.9 | 7.5 | 7.4 | 7.5 |
| GPT-5.2 | 10.9 | 7.4 | 5.7 | 7.5 |
| GPT-5.5 | 23.8 | 3.8 | 4.1 | 3.5 |
可以看到,DeepSeek V4 Flash / Pro 的性价比极高,主要原因是价格太低;GLM-5.1 在能力明显强于 DeepSeek 普通档的同时,价格仍显著低于 OpenAI 顶级模型,因此是很值得关注的开放/国产路线。
#4. Agent 能力:谁最适合做长程主控?
Agent 能力不能只看会不会回答问题,而要看模型能不能在真实环境里长期行动。这里主要看:
- Terminal-Bench 2:终端环境任务;
- BrowseComp / WebArena:浏览器和网页任务;
- OSWorld Verified:电脑 GUI 操作;
- MCP Atlas / Toolathlon / TAU-bench:工具调用和多步任务;
- SWE / Terminal 组合:代码 agent 的真实执行能力。
#4.1 GPT-5.5:最强 general agent
GPT-5.5 的 Agentic score 是 98.3,并且原始项也很强:Terminal-Bench 2 为 82.0,BrowseComp 为 84.4,OSWorld Verified 为 78.7,MCP Atlas 为 75.3,TAU2-Bench 为 98.0。
这说明 GPT-5.5 的强点不是单轮知识问答,而是工具链、多步执行、网页/终端/OS 环境中的稳定行动。如果目标是做科研助理、代码助理、浏览器自动化、长程任务主控,GPT-5.5 是最强选择。
#4.2 GPT-5.4 / GLM-5.1 / GPT-5.3 Codex:第二梯队,各有侧重
GPT-5.4 的 Agentic 为 87.6,Terminal-Bench 2 为 75.1,BrowseComp 为 82.7,OSWorld 为 75.0,MCP Atlas 为 70.6。它是很均衡的 general-purpose agent 模型。
GLM-5.1 的 Agentic 为 81.0,MCP Atlas 为 71.8,Terminal-Bench 2 为 63.5。它不像纯问答模型,更像为 agentic coding / tool use 做了不少优化。
GPT-5.3 Codex 的 Terminal-Bench 2 为 77.3,BrowseComp 为 88.0,OSWorld 为 64.7。它更像代码 Agent 专用模型:在终端和代码环境里很强,但通用 GUI/OS agent 泛化弱于 GPT-5.5/GPT-5.4。
#4.3 DeepSeek V4:适合 worker,不适合最强主控
DeepSeek V4 Pro 的 Agentic 为 69.0,Flash 为 50.0。它们的 MCP Atlas 不差,但 Terminal-Bench 和 Toolathlon 比 OpenAI/GLM 顶层低。这意味着它们适合作为低成本执行器、批量 worker,但不适合作为复杂长程 Agent 的最高层 planner/controller。
#5. 通用/知识能力:GPT-5.4 与 GPT-5.5 领先
通用能力主要看 GPQA、MMLU-Pro、HLE、SimpleQA、Arena 等。
- GPT-5.4:Knowledge 99.3,GPQA 92.8,MMLU-Pro 93.0,HLE 52.1,SimpleQA 97。
- GPT-5.5:Knowledge 98.1,GPQA 93.6,HLE 52.2。
- GPT-5.3 Codex:Knowledge 93.0,GPQA 97.0,MMLU-Pro 90.0,HLE 44.0。
- GLM-5.1:Knowledge 85.1,GPQA 86.0,MMLU-Pro 85.7,HLE 52.3。
- DeepSeek V4 Pro/Flash:MMLU-Pro 约 83,但 GPQA 约 71-73,HLE 约 8,难知识推理还有明显差距。
一个有意思的点是:GLM-5.1 的 HLE 达到 52.3,接近 GPT-5.4/GPT-5.5,但 GPQA、MMLU-Pro、SimpleQA 仍低一些。这说明单个知识 benchmark 不能完全代表整体通用能力。
#6. 数学能力:OpenAI 顶层最稳,GLM-5.1 很强,DeepSeek 要看 reasoning effort
GPT-5.4 在 AIME 2025 和 MATH-500 都达到 99,FrontierMath 为 47.6。GPT-5.3 Codex 的 AIME 2025 为 98,MATH-500 为 99。GPT-5.5 的 FrontierMath 为 51.7,但公开表里没有完整 AIME/MATH-500,因此不宜直接断言它在所有数学项第一。
GLM-5.1 的数学也很强:AIME 2025 为 93.3,AIME 2026 为 95.3,MATH-500 为 97.4。
DeepSeek V4 普通 Pro/Flash 的数学公开项偏弱,但 DeepSeek V4 Pro Max / High reasoning-effort 档在技术报告映射里会大幅提升。因此判断 DeepSeek 数学能力时必须问清楚:你用的是普通档,还是 High/Max reasoning effort?
#7. 代码能力:从“会写函数”走向“会修 repo”
代码能力现在不能只看 HumanEval / LiveCodeBench。更重要的是:
- SWE Verified:真实 issue 修复;
- SWE-Pro / SWE-Rebench:更难的软件工程修复;
- Terminal-Bench 2:终端环境完成任务;
- VibeCodeBench / React Native Evals:产品代码生成与修改。
GPT-5.4 很均衡:SWE Verified 84.0,SWE-Pro 57.7,LiveCodeBench 84.0,Terminal-Bench 2 为 75.1。
GPT-5.3 Codex 更偏代码 Agent:SWE Verified 85.0,SWE-Pro 56.8,SWE-Rebench 58.2,LiveCodeBench 85.0,Terminal-Bench 2 为 77.3。
GLM-5.1 很值得关注:SWE Verified 77.8,SWE-Pro 58.4,SWE-Rebench 62.7,Coding Arena 约 1523.8。它的 LiveCodeBench 只有 52.0,说明它可能更偏真实 repo 工程任务,而不是算法题。
DeepSeek V4 Pro/Flash 的 SWE Verified 约 73.6/73.7,不算差,但 LiveCodeBench、SWE-Pro、Terminal-Bench 都弱于第一梯队。它们更适合低成本代码辅助,而不是最强 coding agent 主力。
#8. 价格与能力:怎么看才不误判?
API 价格不是模型大小或能力的直接估计。它混合了:
- 模型实际计算成本;
- MoE active parameters;
- batching、量化、推理服务栈;
- 上下文长度与 KV cache 成本;
- reasoning effort / test-time compute;
- 平台加价、补贴和商业策略。
因此价格只能作为经济信号,不能替代 benchmark。
#8.1 OpenAI:能力强,但输出价格非常高
GPT-5.5 的价格为输入 30 / 1M;GPT-5.4 为输入 15;GPT-5.3 Codex / GPT-5.2 为输入 14。若是 output-heavy workload,成本会明显上升。
如果你用它们做长程 Agent,输出 token、工具调用 trace、错误恢复都会推高成本。因此 GPT-5.5 更适合作为高价值任务主控,而不是批量 worker。
#8.2 GLM-5.1:能力/价格平衡非常好
GLM-5.1 价格为输入 3.5 / 1M。它的 Coding、Agent、Math 都不弱,因此在代码 Agent 或 repo-level 任务上很有性价比。
#8.3 DeepSeek V4:性价比极高,但能力上限不同
DeepSeek V4 Pro 价格为输入 0.87;DeepSeek V4 Flash 价格为输入 0.28。它们在“分数 / 美元”上会非常好看,但这并不意味着它们能替代 GPT-5.5 做复杂主控。
更合理的用法是:
- GPT-5.5 / GPT-5.4 做 planner、critic、复杂问题分析;
- GLM-5.1 / GPT-5.3 Codex 做代码 worker;
- DeepSeek V4 Pro/Flash 做批量执行、低风险子任务、抽取/改写/简单代码。
#9. 任务选型建议
#9.1 长程 Agent / 科研助理
优先级:GPT-5.5 > GPT-5.4 > GLM-5.1 / GPT-5.3 Codex > DeepSeek V4 Pro > DeepSeek V4 Flash。
原因是长程 Agent 最需要的不是单题能力,而是环境理解、工具调用、出错恢复、长链一致性。
#9.2 代码 Agent / 自动改 repo
优先级:GPT-5.3 Codex ≈ GPT-5.4 ≈ GLM-5.1 > GPT-5.5 > GPT-5.2 > DeepSeek V4 Pro > DeepSeek V4 Flash。
如果任务包含大量浏览器、终端、调研和系统操作,GPT-5.5 会重新升到第一。
#9.3 数学/推理
优先级:GPT-5.4 / GPT-5.3 Codex / GPT-5.5 > GLM-5.1 > GPT-5.4 mini / GPT-5.2 > DeepSeek V4 普通 Pro/Flash。
但 DeepSeek 如果使用 High/Max reasoning-effort 档,数学能力会显著变化。
#9.4 成本敏感批量任务
优先级:DeepSeek V4 Flash > DeepSeek V4 Pro > GLM-5.1 > GPT-5.4 mini。
但前提是任务本身不要求复杂长链推理和高可靠 agent 行动。
#10. 对 LLM Agent 研究的启发
这组模型最有价值的观察不是“谁分高”,而是:Agent 能力正在从传统语言能力中分离出来。
会 AIME、MMLU、GPQA,不等于会长期行动;会写代码,不等于会在真实 repo、真实终端、真实依赖环境里完成任务。Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas 这些 benchmark 正在把模型能力从“答案质量”推向“行动可靠性”。
这对 LLM Agent 研究很关键:
- 长轨迹 credit assignment:模型失败常常不是因为单步不会,而是中途状态错了、工具反馈没吸收、局部错误没有恢复。
- test-time compute 与 reasoning effort:DeepSeek V4 普通档和 Max/High 档差距说明推理时计算已经是能力的一部分。
- agentic coding 的评价迁移:HumanEval/LiveCodeBench 不再够用,SWE-Pro、Terminal-Bench、真实 repo 修复更接近未来代码智能。
- 主控-执行器架构:能力最高的模型未必应该做所有 token;更现实的是强 planner + 低成本 worker + critic 的组合。
#11. 最终推荐
如果只选一个最强主控:GPT-5.5。
如果选日常综合主力:GPT-5.4。
如果选代码 Agent:GPT-5.3 Codex / GLM-5.1。
如果选开放/国产高性价比 coding-agent:GLM-5.1。
如果选低成本批量 worker:DeepSeek V4 Flash / Pro。
如果要做研究,最值得盯的不是总体分数,而是 Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas、TAU-bench 这些 benchmark 如何定义并推动“可行动智能”。
#附录:详细 Benchmark 分数表
这一节展开所有从 BenchLM 结构化页面抽取到的 raw benchmark 分数。不同模型公开覆盖不同,
—只代表缺失/未公开,不代表 0 分。分类总分里的“归一化”是聚合站为了横向排名做的 0-100 标准化,“原始均值”更接近该类别下已公开 benchmark 的直接平均/映射结果;二者都不应被当成同一套严格复测。
#分类总分:归一化分数 vs 原始均值
| 类别 | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| Agent / 工具 / 真实环境|归一化 | 98.3 | 87.6 | 76.8 | 79.9 | 62.1 | 69 | 50 | 81 |
| Agent / 工具 / 真实环境|原始均值 | 81.5 | 72.5 | 65.6 | 76 | 55.5 | 59.1 | 49.1 | 65.3 |
| 代码 / 软件工程|归一化 | 84.2 | 89.3 | 78.4 | 88.7 | 82.4 | 66.5 | 63.9 | 83.9 |
| 代码 / 软件工程|原始均值 | 58.6 | 70.7 | 54.4 | 66.3 | 66.6 | 58.8 | 57.1 | 61.2 |
| 通用知识 / 事实 / 科学|归一化 | 98.1 | 99.3 | 82.3 | 93 | 92.2 | 52.1 | 46 | 85.1 |
| 通用知识 / 事实 / 科学|原始均值 | 66.4 | 84.1 | 57.4 | 81.5 | 80.2 | 49.4 | 45.2 | 73.5 |
| 数学|归一化 | 96.9 | 94.4 | 92.3 | 100 | 81.7 | — | — | 89.6 |
| 数学|原始均值 | 51.7 | 80.5 | 97.4 | 97.5 | 77.4 | — | — | 91.8 |
| 推理 / 长上下文|归一化 | 96.5 | 95.6 | 17.5 | 93.5 | 84.5 | — | — | 63.9 |
| 推理 / 长上下文|原始均值 | 85 | 87.7 | 40.7 | 92.6 | 82.4 | — | — | 70.5 |
| 指令遵循|归一化 | — | 96 | 73.8 | 92.1 | 85.7 | — | — | 92.7 |
| 指令遵循|原始均值 | — | 90.2 | 87.4 | 87.8 | 87.8 | — | — | 92.6 |
| 多语言|归一化 | — | 100 | — | 100 | 99 | — | — | — |
| 多语言|原始均值 | — | 94.7 | — | 92.8 | 92.4 | — | — | — |
| 多模态 / 文档 / 视觉|归一化 | 57.2 | 58 | 70 | 94.8 | 79.8 | — | — | — |
| 多模态 / 文档 / 视觉|原始均值 | 70.4 | 72.7 | 76.6 | 91 | 84.9 | — | — | — |
#Arena / 人类偏好 Elo
| Arena 项 | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| Text Overall | 1475.5 | 1465.6 | 1456.1 | 1416 | 1438.4 | 1463.0 | 1432.3 | 1470.5 |
| Coding | 1508.5 | 1517.2 | 1507.6 | — | 1492.2 | 1480.0 | 1475.9 | 1523.8 |
| Math | 1496 | 1453.2 | 1436.9 | — | 1436.1 | 1443.6 | 1429.7 | 1469.3 |
| Instruction Following | 1465.4 | 1468.8 | 1441.4 | — | 1424.7 | 1449.8 | 1428.1 | 1463.4 |
| Multi-turn | 1486.6 | 1484.2 | 1474.3 | — | 1447.4 | 1479.0 | 1434.7 | 1477.3 |
| Creative Writing | 1429.9 | 1431.5 | 1410.8 | — | 1390.9 | 1449.2 | 1399.3 | 1453.7 |
| Hard Prompts | 1491.0 | 1490.2 | 1478.8 | — | 1463.4 | 1477.2 | 1454.8 | 1492.7 |
| Hard Prompts English | 1491.9 | 1492.3 | 1474.8 | — | 1460.4 | 1471.3 | 1456.2 | 1499.7 |
| Longer Query | 1474.1 | 1482.1 | 1454.5 | — | 1443.6 | 1454.2 | 1439.2 | 1491.2 |
#Agent / 工具 / 真实环境
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| Terminal-Bench 2 | 82 | 75.1 | 60 | 77.3 | — | 59.1 | 49.1 | 63.5 |
| CyberGym | 81.8 | 79 | — | — | — | — | — | 68.7 |
| BrowseComp | 84.4 | 82.7 | — | 88 | 65.8 | — | — | 68 |
| OSWorld-Verified | 78.7 | 75 | 72.1 | 64.7 | 47.3 | — | — | — |
| MCP Atlas | 75.3 | 70.6 | 57.7 | — | — | 69.4 | 64 | 71.8 |
| Toolathlon | 55.6 | 54.6 | 42.9 | — | — | 46.3 | 40.7 | — |
| TAU2-Bench | 98 | 92.8 | 93.4 | — | — | — | — | — |
| TAU3-Bench | — | — | — | — | — | — | — | 70.6 |
| TAU-bench | — | 78.3 | — | 77.8 | 75.1 | — | — | — |
| GAIA | — | 48.2 | — | — | 40.3 | — | — | — |
| WebArena | — | 62.3 | — | — | — | — | — | — |
| ClawEval | — | 60.3 | — | — | — | 59.8 | 57.8 | 62.3 |
| DeepSearchQA | — | 73.6 | — | — | — | — | — | — |
#代码 / 软件工程
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| HumanEval | — | 95 | — | 95 | 91 | — | — | — |
| SWE-bench Verified | — | 84 | — | 85 | 80 | 73.6 | 73.7 | 77.8 |
| LiveCodeBench | — | 84 | — | 85 | 79 | 56.8 | 55.2 | 52 |
| LiveCodeBench Pro | — | 87.5 | — | — | — | — | — | — |
| SWE-Pro | 58.6 | 57.7 | 54.4 | 56.8 | 55.6 | 52.1 | 49.1 | 58.4 |
| SWE-Rebench | — | — | — | 58.2 | — | — | — | 62.7 |
| SciCode | — | 52.5 | — | 46.2 | 45.8 | — | — | — |
| React Native Evals | 84.7 | 85.3 | — | 80.9 | — | — | — | — |
| VibeCodeBench | 69.8 | 67.4 | 48.0 | 61.8 | 53.5 | — | — | 31.5 |
| SWE Multilingual | — | — | — | — | — | 69.8 | 69.7 | — |
| Terminal-Bench 2 | 82 | 75.1 | 60 | 77.3 | — | 59.1 | 49.1 | 63.5 |
| NL2Repo | — | — | — | — | — | — | — | 42.7 |
#通用知识 / 事实 / 科学
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| MMLU | — | 99 | — | 99 | 99 | — | — | 91.7 |
| GPQA | 93.6 | 92.8 | 88 | 97 | 92.4 | 72.9 | 71.2 | 86 |
| GPQA Diamond | 93.6 | 92.8 | — | — | — | 72.9 | 71.2 | 86.2 |
| SuperGPQA | — | 96 | — | 95 | 95 | — | — | 66.8 |
| MMLU-Pro | — | 93 | — | 90 | 88 | 82.9 | 83 | 85.7 |
| HLE | 52.2 | 52.1 | 41.5 | 44 | 42 | 7.7 | 8.1 | 52.3 |
| HLE no tools | 41.4 | 39.8 | 28.2 | — | — | — | — | — |
| FrontierScience | — | 91 | — | 90 | 91 | — | — | 74 |
| SimpleQA | — | 97 | — | 95 | 95 | 45 | 23.1 | 84 |
| Chinese SimpleQA | — | — | — | — | — | 75.8 | 71.5 | — |
| HealthBench Hard | — | 40.1 | — | — | — | — | — | — |
| MedXpertQA Text | — | 59.6 | — | — | — | — | — | — |
#数学
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| AIME 2023 | — | 99 | — | 99 | 99 | — | — | — |
| AIME 2024 | — | 99 | — | 99 | 99 | — | — | — |
| AIME 2025 | — | 99 | — | 98 | 98 | — | — | 93.3 |
| AIME 2026 | — | — | — | — | — | — | — | 95.3 |
| HMMT 2023 | — | 96 | — | 95 | 95 | — | — | — |
| HMMT 2024 | — | 98 | — | 97 | 97 | — | — | — |
| HMMT 2025 | — | 97 | — | 96 | 96 | — | — | — |
| HMMT Nov 2025 | — | — | — | — | — | — | — | 94 |
| HMMT Feb 2026 | — | — | — | — | — | 31.7 | 40.8 | 82.6 |
| BRUMO 2025 | — | 97 | — | 96 | 96 | — | — | 87 |
| MATH-500 | — | 99 | 97.4 | 99 | 98 | — | — | 97.4 |
| FrontierMath | 51.7 | 47.6 | — | — | 40.7 | — | — | — |
| USAMO 2026 | — | 95.2 | — | — | — | — | — | — |
| IMO AnswerBench | — | — | — | — | — | 35.3 | 41.9 | — |
| MM AnswerBench | — | — | — | — | — | — | — | 83.8 |
| APEX | — | — | — | — | — | 0.4 | 1 | — |
| APEX Shortlist | — | — | — | — | — | 9.2 | 9.3 | — |
#推理 / 长上下文
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| MuSR | — | 94 | — | 93 | 93 | — | — | 82 |
| BBH | — | 97 | — | 98 | 96 | — | — | 83 |
| LongBench v2 | — | — | — | 92 | 91 | — | — | 60.8 |
| MRCRv2 | — | 97 | 40.7 | 93 | 93 | — | — | 73 |
| MRCRv2 64-128 | 83.1 | 86 | 47.7 | — | — | — | — | — |
| MRCRv2 128-256 | 87.5 | 79.3 | 33.6 | — | — | — | — | — |
| GraphWalks BFS 128k | — | 93.1 | 76.3 | — | — | — | — | — |
| GraphWalks Parents 128k | — | 89.8 | 71.5 | — | — | — | — | — |
| ARC-AGI-2 | 85 | 73.3 | — | — | 52.9 | — | — | — |
| MRCR 1M | — | — | — | — | — | 44.7 | 37.5 | — |
| CorpusQA 1M | — | — | — | — | — | 35.6 | 15.5 | — |
#指令遵循
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| IFEval | — | 96 | 87.4 | 93 | 94 | — | — | 92.6 |
| IFBench | — | 79.4 | — | 78.1 | 76.2 | — | — | — |
#多语言
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| MGSM | — | 96 | — | 96 | 95 | — | — | — |
| MMLU-ProX | — | 94 | — | 91 | 91 | — | — | — |
#多模态 / 文档 / 视觉
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| MMMU | — | — | — | — | 86.7 | — | — | — |
| MMMU-Pro | 81.2 | 81.2 | 76.6 | 89 | 79.5 | — | — | — |
| MMMU-Pro Python | 83.2 | 82.1 | 78 | — | — | — | — | — |
| OfficeQA Pro | 54.1 | 53.2 | — | 94 | 95 | — | — | — |
| CharXiv | — | 82.8 | — | — | 82.1 | — | — | — |
| ERQA | — | 65.4 | — | — | 59.8 | — | — | — |
| SimpleVQA | — | 61.1 | — | — | 55.8 | — | — | — |
| ScreenSpot Pro | — | 85.4 | — | — | — | — | — | — |
| ZeroBench | — | 41 | — | — | — | — | — | — |
| MedXpertQA MM | — | 77.1 | — | — | — | — | — | — |
| RealWorldQA | — | — | — | — | 83.3 | — | — | — |
| OmniDocBench 1.5 | — | — | — | — | 85.7 | — | — | — |
| VideoMME w/ sub | — | — | — | — | 86 | — | — | — |
| VideoMME no sub | — | — | — | — | 85.8 | — | — | — |
| MathVision | — | — | — | — | 83 | — | — | — |
| WeMath | — | — | — | — | 79 | — | — | — |
| DynaMath | — | — | — | — | 86.8 | — | — | — |
| M-Star | — | — | — | — | 77.1 | — | — | — |
| ChatCVQA | — | — | — | — | 82.1 | — | — | — |
| CC-OCR | — | — | — | — | 70.3 | — | — | — |
| AI2D Test | — | — | — | — | 92.2 | — | — | — |
| CountBench | — | — | — | — | 91.9 | — | — | — |
| VideoMMMU | — | — | — | — | 85.9 | — | — | — |
| MLVU Avg | — | — | — | — | 85.6 | — | — | — |
| V* | — | — | — | — | 75.9 | — | — | — |
| GDPval-AA | — | 1672 | — | — | — | — | — | — |
#韩语专项
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.4 mini | GPT-5.3 Codex | GPT-5.2 | DeepSeek V4 Pro | DeepSeek V4 Flash | GLM-5.1 |
|---|---|---|---|---|---|---|---|---|
| KMMLU | — | 83.7 | — | — | 71.5 | — | — | — |
| KMMLU-Hard | — | 72.8 | — | — | 51.1 | — | — | — |