主题归档 2026-05-13 ★★★★★ LLM Agent Benchmark Coding Pricing

#GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1：Benchmark 与价格横向对比

更新时间：2026-05-13。
数据来源：BenchLM 结构化页面、OpenRouter 公开模型价格接口、LLM Stats / 官方发布页信息的交叉检索。
注意：这些 2026 新模型的许多分数来自聚合站对官方表格的映射，不等价于同一机构统一复测；价格来自 OpenRouter 的公开 API 价格，可能包含平台加价、补贴和产品策略。

#0. 先说结论

如果只看能力上限，GPT-5.5 是最强 general agent；如果看代码工程能力，GPT-5.4、GPT-5.3 Codex、GLM-5.1 是第一梯队；如果把价格放进来，DeepSeek V4 Flash / Pro 和 GLM-5.1 的性价比非常突出。

更具体地说：

最强 Agent 主控：GPT-5.5，其 Agentic score 最高，Terminal-Bench、OSWorld、MCP、TAU 类任务都强。
最均衡通用模型：GPT-5.4，知识、代码、数学、Agent 都没有明显短板。
代码 Agent 专用强模型：GPT-5.3 Codex，SWE Verified、LiveCodeBench、Terminal-Bench 都强。
开放/国产 coding-agent 重点模型：GLM-5.1，SWE-Pro / SWE-Rebench / Coding Arena 很亮眼，价格也远低于 OpenAI 顶级模型。
低成本 worker：DeepSeek V4 Flash，绝对能力不在顶层，但价格极低。
需要谨慎的点：DeepSeek V4 普通 Pro/Flash 与 High/Max reasoning-effort 档差异很大，不能把普通档数学分数泛化到整个 DeepSeek V4 家族。

#1. Benchmark 总表

表中 综合 / Agent / 代码 / 知识 / 数学 / 推理 为 BenchLM 的归一化 category score；后面的 benchmark 是原始分数或官方映射分数。— 表示该模型未公开或未找到可比数据，不代表 0 分。

模型	综合	Agent	代码	知识	数学	推理	Terminal	Browse	OSWorld	MCP	SWE-V	SWE-Pro	LCB	GPQA	MMLU-Pro	HLE	AIME25	MATH500	FrontierMath
GPT-5.5	91	98.3	84.2	98.1	96.9	96.5	82	84.4	78.7	75.3	—	58.6	—	93.6	—	52.2	—	—	51.7
GPT-5.4	89	87.6	89.3	99.3	94.4	95.6	75.1	82.7	75	70.6	84	57.7	84	92.8	93	52.1	99	99	47.6
GPT-5.4 mini	71	76.8	78.4	82.3	92.3	17.5	60	—	72.1	57.7	—	54.4	—	88	—	41.5	—	97.4	—
GPT-5.3 Codex	87	79.9	88.7	93	100	93.5	77.3	88	64.7	—	85	56.8	85	97	90	44	98	99	—
GPT-5.2	81	62.1	82.4	92.2	81.7	84.5	—	65.8	47.3	—	80	55.6	79	92.4	88	42	98	98	40.7
DeepSeek V4 Pro	70	69	66.5	52.1	—	—	59.1	—	—	69.4	73.6	52.1	56.8	72.9	82.9	7.7	—	—	—
DeepSeek V4 Flash	59	50	63.9	46	—	—	49.1	—	—	64	73.7	49.1	55.2	71.2	83	8.1	—	—	—
GLM-5.1	83	81	83.9	85.1	89.6	63.9	63.5	68	—	71.8	77.8	58.4	52	86	85.7	52.3	93.3	97.4	—

#2. 价格总表

价格单位均为 美元 / 1M tokens。1:1均价 是输入和输出价格简单平均；1入3出均价 模拟偏输出型 workload：1 份输入 + 3 份输出。

模型	OpenRouter ID	上下文	输入$/1M	输出$/1M	缓存读$/1M	1:1均价	1入3出均价	综合	Agent	代码
GPT-5.5	openai/gpt-5.5	1M	5	30	0.5	17.5	23.8	91	98.3	84.2
GPT-5.4	openai/gpt-5.4	1.05M	2.5	15	0.2	8.8	11.9	89	87.6	89.3
GPT-5.4 mini	openai/gpt-5.4-mini	400K	0.8	4.5	0.1	2.6	3.6	71	76.8	78.4
GPT-5.3 Codex	openai/gpt-5.3-codex	400K	1.8	14	0.2	7.9	10.9	87	79.9	88.7
GPT-5.2	openai/gpt-5.2	400K	1.8	14	0.2	7.9	10.9	81	62.1	82.4
DeepSeek V4 Pro	deepseek/deepseek-v4-pro	1M	0.4	0.9	0.0	0.7	0.8	70	69	66.5
DeepSeek V4 Flash	deepseek/deepseek-v4-flash	1M	0.1	0.3	0.0	0.2	0.2	59	50	63.9
GLM-5.1	z-ai/glm-5.1	203K	1.0	3.5	0.5	2.3	2.9	83	81	83.9

#3. 性价比粗算

下面只是一个非常粗的经济指标：用 BenchLM 归一化分数除以 1入3出 价格。它不能替代真实 workload 评估，但能说明“能力分数 / API 价格”的大致量级。

模型	1入3出$/1M	综合/$	Agent/$	代码/$
DeepSeek V4 Flash	0.2	240.8	204.1	260.8
DeepSeek V4 Pro	0.8	92.0	90.6	87.4
GLM-5.1	2.9	28.7	28.1	29.1
GPT-5.4 mini	3.6	19.9	21.6	22.0
GPT-5.3 Codex	10.9	8.0	7.3	8.1
GPT-5.4	11.9	7.5	7.4	7.5
GPT-5.2	10.9	7.4	5.7	7.5
GPT-5.5	23.8	3.8	4.1	3.5

可以看到，DeepSeek V4 Flash / Pro 的性价比极高，主要原因是价格太低；GLM-5.1 在能力明显强于 DeepSeek 普通档的同时，价格仍显著低于 OpenAI 顶级模型，因此是很值得关注的开放/国产路线。

#4. Agent 能力：谁最适合做长程主控？

Agent 能力不能只看会不会回答问题，而要看模型能不能在真实环境里长期行动。这里主要看：

Terminal-Bench 2：终端环境任务；
BrowseComp / WebArena：浏览器和网页任务；
OSWorld Verified：电脑 GUI 操作；
MCP Atlas / Toolathlon / TAU-bench：工具调用和多步任务；
SWE / Terminal 组合：代码 agent 的真实执行能力。

#4.1 GPT-5.5：最强 general agent

GPT-5.5 的 Agentic score 是 98.3，并且原始项也很强：Terminal-Bench 2 为 82.0，BrowseComp 为 84.4，OSWorld Verified 为 78.7，MCP Atlas 为 75.3，TAU2-Bench 为 98.0。

这说明 GPT-5.5 的强点不是单轮知识问答，而是工具链、多步执行、网页/终端/OS 环境中的稳定行动。如果目标是做科研助理、代码助理、浏览器自动化、长程任务主控，GPT-5.5 是最强选择。

#4.2 GPT-5.4 / GLM-5.1 / GPT-5.3 Codex：第二梯队，各有侧重

GPT-5.4 的 Agentic 为 87.6，Terminal-Bench 2 为 75.1，BrowseComp 为 82.7，OSWorld 为 75.0，MCP Atlas 为 70.6。它是很均衡的 general-purpose agent 模型。

GLM-5.1 的 Agentic 为 81.0，MCP Atlas 为 71.8，Terminal-Bench 2 为 63.5。它不像纯问答模型，更像为 agentic coding / tool use 做了不少优化。

GPT-5.3 Codex 的 Terminal-Bench 2 为 77.3，BrowseComp 为 88.0，OSWorld 为 64.7。它更像代码 Agent 专用模型：在终端和代码环境里很强，但通用 GUI/OS agent 泛化弱于 GPT-5.5/GPT-5.4。

#4.3 DeepSeek V4：适合 worker，不适合最强主控

DeepSeek V4 Pro 的 Agentic 为 69.0，Flash 为 50.0。它们的 MCP Atlas 不差，但 Terminal-Bench 和 Toolathlon 比 OpenAI/GLM 顶层低。这意味着它们适合作为低成本执行器、批量 worker，但不适合作为复杂长程 Agent 的最高层 planner/controller。

#5. 通用/知识能力：GPT-5.4 与 GPT-5.5 领先

通用能力主要看 GPQA、MMLU-Pro、HLE、SimpleQA、Arena 等。

GPT-5.4：Knowledge 99.3，GPQA 92.8，MMLU-Pro 93.0，HLE 52.1，SimpleQA 97。
GPT-5.5：Knowledge 98.1，GPQA 93.6，HLE 52.2。
GPT-5.3 Codex：Knowledge 93.0，GPQA 97.0，MMLU-Pro 90.0，HLE 44.0。
GLM-5.1：Knowledge 85.1，GPQA 86.0，MMLU-Pro 85.7，HLE 52.3。
DeepSeek V4 Pro/Flash：MMLU-Pro 约 83，但 GPQA 约 71-73，HLE 约 8，难知识推理还有明显差距。

一个有意思的点是：GLM-5.1 的 HLE 达到 52.3，接近 GPT-5.4/GPT-5.5，但 GPQA、MMLU-Pro、SimpleQA 仍低一些。这说明单个知识 benchmark 不能完全代表整体通用能力。

#6. 数学能力：OpenAI 顶层最稳，GLM-5.1 很强，DeepSeek 要看 reasoning effort

GPT-5.4 在 AIME 2025 和 MATH-500 都达到 99，FrontierMath 为 47.6。GPT-5.3 Codex 的 AIME 2025 为 98，MATH-500 为 99。GPT-5.5 的 FrontierMath 为 51.7，但公开表里没有完整 AIME/MATH-500，因此不宜直接断言它在所有数学项第一。

GLM-5.1 的数学也很强：AIME 2025 为 93.3，AIME 2026 为 95.3，MATH-500 为 97.4。

DeepSeek V4 普通 Pro/Flash 的数学公开项偏弱，但 DeepSeek V4 Pro Max / High reasoning-effort 档在技术报告映射里会大幅提升。因此判断 DeepSeek 数学能力时必须问清楚：你用的是普通档，还是 High/Max reasoning effort？

#7. 代码能力：从“会写函数”走向“会修 repo”

代码能力现在不能只看 HumanEval / LiveCodeBench。更重要的是：

SWE Verified：真实 issue 修复；
SWE-Pro / SWE-Rebench：更难的软件工程修复；
Terminal-Bench 2：终端环境完成任务；
VibeCodeBench / React Native Evals：产品代码生成与修改。

GPT-5.4 很均衡：SWE Verified 84.0，SWE-Pro 57.7，LiveCodeBench 84.0，Terminal-Bench 2 为 75.1。

GPT-5.3 Codex 更偏代码 Agent：SWE Verified 85.0，SWE-Pro 56.8，SWE-Rebench 58.2，LiveCodeBench 85.0，Terminal-Bench 2 为 77.3。

GLM-5.1 很值得关注：SWE Verified 77.8，SWE-Pro 58.4，SWE-Rebench 62.7，Coding Arena 约 1523.8。它的 LiveCodeBench 只有 52.0，说明它可能更偏真实 repo 工程任务，而不是算法题。

DeepSeek V4 Pro/Flash 的 SWE Verified 约 73.6/73.7，不算差，但 LiveCodeBench、SWE-Pro、Terminal-Bench 都弱于第一梯队。它们更适合低成本代码辅助，而不是最强 coding agent 主力。

#8. 价格与能力：怎么看才不误判？

API 价格不是模型大小或能力的直接估计。它混合了：

模型实际计算成本；
MoE active parameters；
batching、量化、推理服务栈；
上下文长度与 KV cache 成本；
reasoning effort / test-time compute；
平台加价、补贴和商业策略。

因此价格只能作为经济信号，不能替代 benchmark。

#8.1 OpenAI：能力强，但输出价格非常高

GPT-5.5 的价格为输入 $5 / 1M、输出$ 30 / 1M；GPT-5.4 为输入 $2.5、输出$ 15；GPT-5.3 Codex / GPT-5.2 为输入 $1.75、输出$ 14。若是 output-heavy workload，成本会明显上升。

如果你用它们做长程 Agent，输出 token、工具调用 trace、错误恢复都会推高成本。因此 GPT-5.5 更适合作为高价值任务主控，而不是批量 worker。

#8.2 GLM-5.1：能力/价格平衡非常好

GLM-5.1 价格为输入 $1.05 / 1M、输出$ 3.5 / 1M。它的 Coding、Agent、Math 都不弱，因此在代码 Agent 或 repo-level 任务上很有性价比。

#8.3 DeepSeek V4：性价比极高，但能力上限不同

DeepSeek V4 Pro 价格为输入 $0.435、输出$ 0.87；DeepSeek V4 Flash 价格为输入 $0.14、输出$ 0.28。它们在“分数 / 美元”上会非常好看，但这并不意味着它们能替代 GPT-5.5 做复杂主控。

更合理的用法是：

GPT-5.5 / GPT-5.4 做 planner、critic、复杂问题分析；
GLM-5.1 / GPT-5.3 Codex 做代码 worker；
DeepSeek V4 Pro/Flash 做批量执行、低风险子任务、抽取/改写/简单代码。

#9. 任务选型建议

#9.1 长程 Agent / 科研助理

优先级：GPT-5.5 > GPT-5.4 > GLM-5.1 / GPT-5.3 Codex > DeepSeek V4 Pro > DeepSeek V4 Flash。

原因是长程 Agent 最需要的不是单题能力，而是环境理解、工具调用、出错恢复、长链一致性。

#9.2 代码 Agent / 自动改 repo

优先级：GPT-5.3 Codex ≈ GPT-5.4 ≈ GLM-5.1 > GPT-5.5 > GPT-5.2 > DeepSeek V4 Pro > DeepSeek V4 Flash。

如果任务包含大量浏览器、终端、调研和系统操作，GPT-5.5 会重新升到第一。

#9.3 数学/推理

优先级：GPT-5.4 / GPT-5.3 Codex / GPT-5.5 > GLM-5.1 > GPT-5.4 mini / GPT-5.2 > DeepSeek V4 普通 Pro/Flash。

但 DeepSeek 如果使用 High/Max reasoning-effort 档，数学能力会显著变化。

#9.4 成本敏感批量任务

优先级：DeepSeek V4 Flash > DeepSeek V4 Pro > GLM-5.1 > GPT-5.4 mini。

但前提是任务本身不要求复杂长链推理和高可靠 agent 行动。

#10. 对 LLM Agent 研究的启发

这组模型最有价值的观察不是“谁分高”，而是：Agent 能力正在从传统语言能力中分离出来。

会 AIME、MMLU、GPQA，不等于会长期行动；会写代码，不等于会在真实 repo、真实终端、真实依赖环境里完成任务。Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas 这些 benchmark 正在把模型能力从“答案质量”推向“行动可靠性”。

这对 LLM Agent 研究很关键：

长轨迹 credit assignment：模型失败常常不是因为单步不会，而是中途状态错了、工具反馈没吸收、局部错误没有恢复。
test-time compute 与 reasoning effort：DeepSeek V4 普通档和 Max/High 档差距说明推理时计算已经是能力的一部分。
agentic coding 的评价迁移：HumanEval/LiveCodeBench 不再够用，SWE-Pro、Terminal-Bench、真实 repo 修复更接近未来代码智能。
主控-执行器架构：能力最高的模型未必应该做所有 token；更现实的是强 planner + 低成本 worker + critic 的组合。

#11. 最终推荐

如果只选一个最强主控：GPT-5.5。

如果选日常综合主力：GPT-5.4。

如果选代码 Agent：GPT-5.3 Codex / GLM-5.1。

如果选开放/国产高性价比 coding-agent：GLM-5.1。

如果选低成本批量 worker：DeepSeek V4 Flash / Pro。

如果要做研究，最值得盯的不是总体分数，而是 Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas、TAU-bench 这些 benchmark 如何定义并推动“可行动智能”。

#附录：详细 Benchmark 分数表

这一节展开所有从 BenchLM 结构化页面抽取到的 raw benchmark 分数。不同模型公开覆盖不同，— 只代表缺失/未公开，不代表 0 分。分类总分里的“归一化”是聚合站为了横向排名做的 0-100 标准化，“原始均值”更接近该类别下已公开 benchmark 的直接平均/映射结果；二者都不应被当成同一套严格复测。

#分类总分：归一化分数 vs 原始均值

类别	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
Agent / 工具 / 真实环境｜归一化	98.3	87.6	76.8	79.9	62.1	69	50	81
Agent / 工具 / 真实环境｜原始均值	81.5	72.5	65.6	76	55.5	59.1	49.1	65.3
代码 / 软件工程｜归一化	84.2	89.3	78.4	88.7	82.4	66.5	63.9	83.9
代码 / 软件工程｜原始均值	58.6	70.7	54.4	66.3	66.6	58.8	57.1	61.2
通用知识 / 事实 / 科学｜归一化	98.1	99.3	82.3	93	92.2	52.1	46	85.1
通用知识 / 事实 / 科学｜原始均值	66.4	84.1	57.4	81.5	80.2	49.4	45.2	73.5
数学｜归一化	96.9	94.4	92.3	100	81.7	—	—	89.6
数学｜原始均值	51.7	80.5	97.4	97.5	77.4	—	—	91.8
推理 / 长上下文｜归一化	96.5	95.6	17.5	93.5	84.5	—	—	63.9
推理 / 长上下文｜原始均值	85	87.7	40.7	92.6	82.4	—	—	70.5
指令遵循｜归一化	—	96	73.8	92.1	85.7	—	—	92.7
指令遵循｜原始均值	—	90.2	87.4	87.8	87.8	—	—	92.6
多语言｜归一化	—	100	—	100	99	—	—	—
多语言｜原始均值	—	94.7	—	92.8	92.4	—	—	—
多模态 / 文档 / 视觉｜归一化	57.2	58	70	94.8	79.8	—	—	—
多模态 / 文档 / 视觉｜原始均值	70.4	72.7	76.6	91	84.9	—	—	—

#Arena / 人类偏好 Elo

Arena 项	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
Text Overall	1475.5	1465.6	1456.1	1416	1438.4	1463.0	1432.3	1470.5
Coding	1508.5	1517.2	1507.6	—	1492.2	1480.0	1475.9	1523.8
Math	1496	1453.2	1436.9	—	1436.1	1443.6	1429.7	1469.3
Instruction Following	1465.4	1468.8	1441.4	—	1424.7	1449.8	1428.1	1463.4
Multi-turn	1486.6	1484.2	1474.3	—	1447.4	1479.0	1434.7	1477.3
Creative Writing	1429.9	1431.5	1410.8	—	1390.9	1449.2	1399.3	1453.7
Hard Prompts	1491.0	1490.2	1478.8	—	1463.4	1477.2	1454.8	1492.7
Hard Prompts English	1491.9	1492.3	1474.8	—	1460.4	1471.3	1456.2	1499.7
Longer Query	1474.1	1482.1	1454.5	—	1443.6	1454.2	1439.2	1491.2

#Agent / 工具 / 真实环境

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
Terminal-Bench 2	82	75.1	60	77.3	—	59.1	49.1	63.5
CyberGym	81.8	79	—	—	—	—	—	68.7
BrowseComp	84.4	82.7	—	88	65.8	—	—	68
OSWorld-Verified	78.7	75	72.1	64.7	47.3	—	—	—
MCP Atlas	75.3	70.6	57.7	—	—	69.4	64	71.8
Toolathlon	55.6	54.6	42.9	—	—	46.3	40.7	—
TAU2-Bench	98	92.8	93.4	—	—	—	—	—
TAU3-Bench	—	—	—	—	—	—	—	70.6
TAU-bench	—	78.3	—	77.8	75.1	—	—	—
GAIA	—	48.2	—	—	40.3	—	—	—
WebArena	—	62.3	—	—	—	—	—	—
ClawEval	—	60.3	—	—	—	59.8	57.8	62.3
DeepSearchQA	—	73.6	—	—	—	—	—	—

#代码 / 软件工程

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
HumanEval	—	95	—	95	91	—	—	—
SWE-bench Verified	—	84	—	85	80	73.6	73.7	77.8
LiveCodeBench	—	84	—	85	79	56.8	55.2	52
LiveCodeBench Pro	—	87.5	—	—	—	—	—	—
SWE-Pro	58.6	57.7	54.4	56.8	55.6	52.1	49.1	58.4
SWE-Rebench	—	—	—	58.2	—	—	—	62.7
SciCode	—	52.5	—	46.2	45.8	—	—	—
React Native Evals	84.7	85.3	—	80.9	—	—	—	—
VibeCodeBench	69.8	67.4	48.0	61.8	53.5	—	—	31.5
SWE Multilingual	—	—	—	—	—	69.8	69.7	—
Terminal-Bench 2	82	75.1	60	77.3	—	59.1	49.1	63.5
NL2Repo	—	—	—	—	—	—	—	42.7

#通用知识 / 事实 / 科学

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
MMLU	—	99	—	99	99	—	—	91.7
GPQA	93.6	92.8	88	97	92.4	72.9	71.2	86
GPQA Diamond	93.6	92.8	—	—	—	72.9	71.2	86.2
SuperGPQA	—	96	—	95	95	—	—	66.8
MMLU-Pro	—	93	—	90	88	82.9	83	85.7
HLE	52.2	52.1	41.5	44	42	7.7	8.1	52.3
HLE no tools	41.4	39.8	28.2	—	—	—	—	—
FrontierScience	—	91	—	90	91	—	—	74
SimpleQA	—	97	—	95	95	45	23.1	84
Chinese SimpleQA	—	—	—	—	—	75.8	71.5	—
HealthBench Hard	—	40.1	—	—	—	—	—	—
MedXpertQA Text	—	59.6	—	—	—	—	—	—

#数学

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
AIME 2023	—	99	—	99	99	—	—	—
AIME 2024	—	99	—	99	99	—	—	—
AIME 2025	—	99	—	98	98	—	—	93.3
AIME 2026	—	—	—	—	—	—	—	95.3
HMMT 2023	—	96	—	95	95	—	—	—
HMMT 2024	—	98	—	97	97	—	—	—
HMMT 2025	—	97	—	96	96	—	—	—
HMMT Nov 2025	—	—	—	—	—	—	—	94
HMMT Feb 2026	—	—	—	—	—	31.7	40.8	82.6
BRUMO 2025	—	97	—	96	96	—	—	87
MATH-500	—	99	97.4	99	98	—	—	97.4
FrontierMath	51.7	47.6	—	—	40.7	—	—	—
USAMO 2026	—	95.2	—	—	—	—	—	—
IMO AnswerBench	—	—	—	—	—	35.3	41.9	—
MM AnswerBench	—	—	—	—	—	—	—	83.8
APEX	—	—	—	—	—	0.4	1	—
APEX Shortlist	—	—	—	—	—	9.2	9.3	—

#推理 / 长上下文

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
MuSR	—	94	—	93	93	—	—	82
BBH	—	97	—	98	96	—	—	83
LongBench v2	—	—	—	92	91	—	—	60.8
MRCRv2	—	97	40.7	93	93	—	—	73
MRCRv2 64-128	83.1	86	47.7	—	—	—	—	—
MRCRv2 128-256	87.5	79.3	33.6	—	—	—	—	—
GraphWalks BFS 128k	—	93.1	76.3	—	—	—	—	—
GraphWalks Parents 128k	—	89.8	71.5	—	—	—	—	—
ARC-AGI-2	85	73.3	—	—	52.9	—	—	—
MRCR 1M	—	—	—	—	—	44.7	37.5	—
CorpusQA 1M	—	—	—	—	—	35.6	15.5	—

#指令遵循

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
IFEval	—	96	87.4	93	94	—	—	92.6
IFBench	—	79.4	—	78.1	76.2	—	—	—

#多语言

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
MGSM	—	96	—	96	95	—	—	—
MMLU-ProX	—	94	—	91	91	—	—	—

#多模态 / 文档 / 视觉

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
MMMU	—	—	—	—	86.7	—	—	—
MMMU-Pro	81.2	81.2	76.6	89	79.5	—	—	—
MMMU-Pro Python	83.2	82.1	78	—	—	—	—	—
OfficeQA Pro	54.1	53.2	—	94	95	—	—	—
CharXiv	—	82.8	—	—	82.1	—	—	—
ERQA	—	65.4	—	—	59.8	—	—	—
SimpleVQA	—	61.1	—	—	55.8	—	—	—
ScreenSpot Pro	—	85.4	—	—	—	—	—	—
ZeroBench	—	41	—	—	—	—	—	—
MedXpertQA MM	—	77.1	—	—	—	—	—	—
RealWorldQA	—	—	—	—	83.3	—	—	—
OmniDocBench 1.5	—	—	—	—	85.7	—	—	—
VideoMME w/ sub	—	—	—	—	86	—	—	—
VideoMME no sub	—	—	—	—	85.8	—	—	—
MathVision	—	—	—	—	83	—	—	—
WeMath	—	—	—	—	79	—	—	—
DynaMath	—	—	—	—	86.8	—	—	—
M-Star	—	—	—	—	77.1	—	—	—
ChatCVQA	—	—	—	—	82.1	—	—	—
CC-OCR	—	—	—	—	70.3	—	—	—
AI2D Test	—	—	—	—	92.2	—	—	—
CountBench	—	—	—	—	91.9	—	—	—
VideoMMMU	—	—	—	—	85.9	—	—	—
MLVU Avg	—	—	—	—	85.6	—	—	—
V*	—	—	—	—	75.9	—	—	—
GDPval-AA	—	1672	—	—	—	—	—	—

#韩语专项

Benchmark	GPT-5.5	GPT-5.4	GPT-5.4 mini	GPT-5.3 Codex	GPT-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	GLM-5.1
KMMLU	—	83.7	—	—	71.5	—	—	—
KMMLU-Hard	—	72.8	—	—	51.1	—	—	—