#GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

更新时间:2026-05-13。

数据来源:BenchLM 结构化页面、OpenRouter 公开模型价格接口、LLM Stats / 官方发布页信息的交叉检索。

注意:这些 2026 新模型的许多分数来自聚合站对官方表格的映射,不等价于同一机构统一复测;价格来自 OpenRouter 的公开 API 价格,可能包含平台加价、补贴和产品策略。

#0. 先说结论

如果只看能力上限,GPT-5.5 是最强 general agent;如果看代码工程能力,GPT-5.4、GPT-5.3 Codex、GLM-5.1 是第一梯队;如果把价格放进来,DeepSeek V4 Flash / Pro 和 GLM-5.1 的性价比非常突出。

更具体地说:

  • 最强 Agent 主控:GPT-5.5,其 Agentic score 最高,Terminal-Bench、OSWorld、MCP、TAU 类任务都强。
  • 最均衡通用模型:GPT-5.4,知识、代码、数学、Agent 都没有明显短板。
  • 代码 Agent 专用强模型:GPT-5.3 Codex,SWE Verified、LiveCodeBench、Terminal-Bench 都强。
  • 开放/国产 coding-agent 重点模型:GLM-5.1,SWE-Pro / SWE-Rebench / Coding Arena 很亮眼,价格也远低于 OpenAI 顶级模型。
  • 低成本 worker:DeepSeek V4 Flash,绝对能力不在顶层,但价格极低。
  • 需要谨慎的点:DeepSeek V4 普通 Pro/Flash 与 High/Max reasoning-effort 档差异很大,不能把普通档数学分数泛化到整个 DeepSeek V4 家族。

#1. Benchmark 总表

表中 综合 / Agent / 代码 / 知识 / 数学 / 推理 为 BenchLM 的归一化 category score;后面的 benchmark 是原始分数或官方映射分数。 表示该模型未公开或未找到可比数据,不代表 0 分。

模型综合Agent代码知识数学推理TerminalBrowseOSWorldMCPSWE-VSWE-ProLCBGPQAMMLU-ProHLEAIME25MATH500FrontierMath
GPT-5.59198.384.298.196.996.58284.478.775.358.693.652.251.7
GPT-5.48987.689.399.394.495.675.182.77570.68457.78492.89352.1999947.6
GPT-5.4 mini7176.878.482.392.317.56072.157.754.48841.597.4
GPT-5.3 Codex8779.988.79310093.577.38864.78556.8859790449899
GPT-5.28162.182.492.281.784.565.847.38055.67992.48842989840.7
DeepSeek V4 Pro706966.552.159.169.473.652.156.872.982.97.7
DeepSeek V4 Flash595063.94649.16473.749.155.271.2838.1
GLM-5.1838183.985.189.663.963.56871.877.858.4528685.752.393.397.4

#2. 价格总表

价格单位均为 美元 / 1M tokens1:1均价 是输入和输出价格简单平均;1入3出均价 模拟偏输出型 workload:1 份输入 + 3 份输出。

模型OpenRouter ID上下文输入$/1M输出$/1M缓存读$/1M1:1均价1入3出均价综合Agent代码
GPT-5.5openai/gpt-5.51M5300.517.523.89198.384.2
GPT-5.4openai/gpt-5.41.05M2.5150.28.811.98987.689.3
GPT-5.4 miniopenai/gpt-5.4-mini400K0.84.50.12.63.67176.878.4
GPT-5.3 Codexopenai/gpt-5.3-codex400K1.8140.27.910.98779.988.7
GPT-5.2openai/gpt-5.2400K1.8140.27.910.98162.182.4
DeepSeek V4 Prodeepseek/deepseek-v4-pro1M0.40.90.00.70.8706966.5
DeepSeek V4 Flashdeepseek/deepseek-v4-flash1M0.10.30.00.20.2595063.9
GLM-5.1z-ai/glm-5.1203K1.03.50.52.32.9838183.9

#3. 性价比粗算

下面只是一个非常粗的经济指标:用 BenchLM 归一化分数除以 1入3出 价格。它不能替代真实 workload 评估,但能说明“能力分数 / API 价格”的大致量级。

模型1入3出$/1M综合/$Agent/$代码/$
DeepSeek V4 Flash0.2240.8204.1260.8
DeepSeek V4 Pro0.892.090.687.4
GLM-5.12.928.728.129.1
GPT-5.4 mini3.619.921.622.0
GPT-5.3 Codex10.98.07.38.1
GPT-5.411.97.57.47.5
GPT-5.210.97.45.77.5
GPT-5.523.83.84.13.5

可以看到,DeepSeek V4 Flash / Pro 的性价比极高,主要原因是价格太低;GLM-5.1 在能力明显强于 DeepSeek 普通档的同时,价格仍显著低于 OpenAI 顶级模型,因此是很值得关注的开放/国产路线。

#4. Agent 能力:谁最适合做长程主控?

Agent 能力不能只看会不会回答问题,而要看模型能不能在真实环境里长期行动。这里主要看:

  • Terminal-Bench 2:终端环境任务;
  • BrowseComp / WebArena:浏览器和网页任务;
  • OSWorld Verified:电脑 GUI 操作;
  • MCP Atlas / Toolathlon / TAU-bench:工具调用和多步任务;
  • SWE / Terminal 组合:代码 agent 的真实执行能力。

#4.1 GPT-5.5:最强 general agent

GPT-5.5 的 Agentic score 是 98.3,并且原始项也很强:Terminal-Bench 2 为 82.0,BrowseComp 为 84.4,OSWorld Verified 为 78.7,MCP Atlas 为 75.3,TAU2-Bench 为 98.0。

这说明 GPT-5.5 的强点不是单轮知识问答,而是工具链、多步执行、网页/终端/OS 环境中的稳定行动。如果目标是做科研助理、代码助理、浏览器自动化、长程任务主控,GPT-5.5 是最强选择。

#4.2 GPT-5.4 / GLM-5.1 / GPT-5.3 Codex:第二梯队,各有侧重

GPT-5.4 的 Agentic 为 87.6,Terminal-Bench 2 为 75.1,BrowseComp 为 82.7,OSWorld 为 75.0,MCP Atlas 为 70.6。它是很均衡的 general-purpose agent 模型。

GLM-5.1 的 Agentic 为 81.0,MCP Atlas 为 71.8,Terminal-Bench 2 为 63.5。它不像纯问答模型,更像为 agentic coding / tool use 做了不少优化。

GPT-5.3 Codex 的 Terminal-Bench 2 为 77.3,BrowseComp 为 88.0,OSWorld 为 64.7。它更像代码 Agent 专用模型:在终端和代码环境里很强,但通用 GUI/OS agent 泛化弱于 GPT-5.5/GPT-5.4。

#4.3 DeepSeek V4:适合 worker,不适合最强主控

DeepSeek V4 Pro 的 Agentic 为 69.0,Flash 为 50.0。它们的 MCP Atlas 不差,但 Terminal-Bench 和 Toolathlon 比 OpenAI/GLM 顶层低。这意味着它们适合作为低成本执行器、批量 worker,但不适合作为复杂长程 Agent 的最高层 planner/controller。

#5. 通用/知识能力:GPT-5.4 与 GPT-5.5 领先

通用能力主要看 GPQA、MMLU-Pro、HLE、SimpleQA、Arena 等。

  • GPT-5.4:Knowledge 99.3,GPQA 92.8,MMLU-Pro 93.0,HLE 52.1,SimpleQA 97。
  • GPT-5.5:Knowledge 98.1,GPQA 93.6,HLE 52.2。
  • GPT-5.3 Codex:Knowledge 93.0,GPQA 97.0,MMLU-Pro 90.0,HLE 44.0。
  • GLM-5.1:Knowledge 85.1,GPQA 86.0,MMLU-Pro 85.7,HLE 52.3。
  • DeepSeek V4 Pro/Flash:MMLU-Pro 约 83,但 GPQA 约 71-73,HLE 约 8,难知识推理还有明显差距。

一个有意思的点是:GLM-5.1 的 HLE 达到 52.3,接近 GPT-5.4/GPT-5.5,但 GPQA、MMLU-Pro、SimpleQA 仍低一些。这说明单个知识 benchmark 不能完全代表整体通用能力。

#6. 数学能力:OpenAI 顶层最稳,GLM-5.1 很强,DeepSeek 要看 reasoning effort

GPT-5.4 在 AIME 2025 和 MATH-500 都达到 99,FrontierMath 为 47.6。GPT-5.3 Codex 的 AIME 2025 为 98,MATH-500 为 99。GPT-5.5 的 FrontierMath 为 51.7,但公开表里没有完整 AIME/MATH-500,因此不宜直接断言它在所有数学项第一。

GLM-5.1 的数学也很强:AIME 2025 为 93.3,AIME 2026 为 95.3,MATH-500 为 97.4。

DeepSeek V4 普通 Pro/Flash 的数学公开项偏弱,但 DeepSeek V4 Pro Max / High reasoning-effort 档在技术报告映射里会大幅提升。因此判断 DeepSeek 数学能力时必须问清楚:你用的是普通档,还是 High/Max reasoning effort?

#7. 代码能力:从“会写函数”走向“会修 repo”

代码能力现在不能只看 HumanEval / LiveCodeBench。更重要的是:

  • SWE Verified:真实 issue 修复;
  • SWE-Pro / SWE-Rebench:更难的软件工程修复;
  • Terminal-Bench 2:终端环境完成任务;
  • VibeCodeBench / React Native Evals:产品代码生成与修改。

GPT-5.4 很均衡:SWE Verified 84.0,SWE-Pro 57.7,LiveCodeBench 84.0,Terminal-Bench 2 为 75.1。

GPT-5.3 Codex 更偏代码 Agent:SWE Verified 85.0,SWE-Pro 56.8,SWE-Rebench 58.2,LiveCodeBench 85.0,Terminal-Bench 2 为 77.3。

GLM-5.1 很值得关注:SWE Verified 77.8,SWE-Pro 58.4,SWE-Rebench 62.7,Coding Arena 约 1523.8。它的 LiveCodeBench 只有 52.0,说明它可能更偏真实 repo 工程任务,而不是算法题。

DeepSeek V4 Pro/Flash 的 SWE Verified 约 73.6/73.7,不算差,但 LiveCodeBench、SWE-Pro、Terminal-Bench 都弱于第一梯队。它们更适合低成本代码辅助,而不是最强 coding agent 主力。

#8. 价格与能力:怎么看才不误判?

API 价格不是模型大小或能力的直接估计。它混合了:

  • 模型实际计算成本;
  • MoE active parameters;
  • batching、量化、推理服务栈;
  • 上下文长度与 KV cache 成本;
  • reasoning effort / test-time compute;
  • 平台加价、补贴和商业策略。

因此价格只能作为经济信号,不能替代 benchmark。

#8.1 OpenAI:能力强,但输出价格非常高

GPT-5.5 的价格为输入 30 / 1M;GPT-5.4 为输入 15;GPT-5.3 Codex / GPT-5.2 为输入 14。若是 output-heavy workload,成本会明显上升。

如果你用它们做长程 Agent,输出 token、工具调用 trace、错误恢复都会推高成本。因此 GPT-5.5 更适合作为高价值任务主控,而不是批量 worker。

#8.2 GLM-5.1:能力/价格平衡非常好

GLM-5.1 价格为输入 3.5 / 1M。它的 Coding、Agent、Math 都不弱,因此在代码 Agent 或 repo-level 任务上很有性价比。

#8.3 DeepSeek V4:性价比极高,但能力上限不同

DeepSeek V4 Pro 价格为输入 0.87;DeepSeek V4 Flash 价格为输入 0.28。它们在“分数 / 美元”上会非常好看,但这并不意味着它们能替代 GPT-5.5 做复杂主控。

更合理的用法是:

  • GPT-5.5 / GPT-5.4 做 planner、critic、复杂问题分析;
  • GLM-5.1 / GPT-5.3 Codex 做代码 worker;
  • DeepSeek V4 Pro/Flash 做批量执行、低风险子任务、抽取/改写/简单代码。

#9. 任务选型建议

#9.1 长程 Agent / 科研助理

优先级:GPT-5.5 > GPT-5.4 > GLM-5.1 / GPT-5.3 Codex > DeepSeek V4 Pro > DeepSeek V4 Flash。

原因是长程 Agent 最需要的不是单题能力,而是环境理解、工具调用、出错恢复、长链一致性。

#9.2 代码 Agent / 自动改 repo

优先级:GPT-5.3 Codex ≈ GPT-5.4 ≈ GLM-5.1 > GPT-5.5 > GPT-5.2 > DeepSeek V4 Pro > DeepSeek V4 Flash。

如果任务包含大量浏览器、终端、调研和系统操作,GPT-5.5 会重新升到第一。

#9.3 数学/推理

优先级:GPT-5.4 / GPT-5.3 Codex / GPT-5.5 > GLM-5.1 > GPT-5.4 mini / GPT-5.2 > DeepSeek V4 普通 Pro/Flash。

但 DeepSeek 如果使用 High/Max reasoning-effort 档,数学能力会显著变化。

#9.4 成本敏感批量任务

优先级:DeepSeek V4 Flash > DeepSeek V4 Pro > GLM-5.1 > GPT-5.4 mini。

但前提是任务本身不要求复杂长链推理和高可靠 agent 行动。

#10. 对 LLM Agent 研究的启发

这组模型最有价值的观察不是“谁分高”,而是:Agent 能力正在从传统语言能力中分离出来。

会 AIME、MMLU、GPQA,不等于会长期行动;会写代码,不等于会在真实 repo、真实终端、真实依赖环境里完成任务。Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas 这些 benchmark 正在把模型能力从“答案质量”推向“行动可靠性”。

这对 LLM Agent 研究很关键:

  1. 长轨迹 credit assignment:模型失败常常不是因为单步不会,而是中途状态错了、工具反馈没吸收、局部错误没有恢复。
  2. test-time compute 与 reasoning effort:DeepSeek V4 普通档和 Max/High 档差距说明推理时计算已经是能力的一部分。
  3. agentic coding 的评价迁移:HumanEval/LiveCodeBench 不再够用,SWE-Pro、Terminal-Bench、真实 repo 修复更接近未来代码智能。
  4. 主控-执行器架构:能力最高的模型未必应该做所有 token;更现实的是强 planner + 低成本 worker + critic 的组合。

#11. 最终推荐

如果只选一个最强主控:GPT-5.5

如果选日常综合主力:GPT-5.4

如果选代码 Agent:GPT-5.3 Codex / GLM-5.1

如果选开放/国产高性价比 coding-agent:GLM-5.1

如果选低成本批量 worker:DeepSeek V4 Flash / Pro

如果要做研究,最值得盯的不是总体分数,而是 Terminal-Bench、SWE-Pro、OSWorld、MCP Atlas、TAU-bench 这些 benchmark 如何定义并推动“可行动智能”

#附录:详细 Benchmark 分数表

这一节展开所有从 BenchLM 结构化页面抽取到的 raw benchmark 分数。不同模型公开覆盖不同, 只代表缺失/未公开,不代表 0 分。分类总分里的“归一化”是聚合站为了横向排名做的 0-100 标准化,“原始均值”更接近该类别下已公开 benchmark 的直接平均/映射结果;二者都不应被当成同一套严格复测。

#分类总分:归一化分数 vs 原始均值

类别GPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
Agent / 工具 / 真实环境|归一化98.387.676.879.962.1695081
Agent / 工具 / 真实环境|原始均值81.572.565.67655.559.149.165.3
代码 / 软件工程|归一化84.289.378.488.782.466.563.983.9
代码 / 软件工程|原始均值58.670.754.466.366.658.857.161.2
通用知识 / 事实 / 科学|归一化98.199.382.39392.252.14685.1
通用知识 / 事实 / 科学|原始均值66.484.157.481.580.249.445.273.5
数学|归一化96.994.492.310081.789.6
数学|原始均值51.780.597.497.577.491.8
推理 / 长上下文|归一化96.595.617.593.584.563.9
推理 / 长上下文|原始均值8587.740.792.682.470.5
指令遵循|归一化9673.892.185.792.7
指令遵循|原始均值90.287.487.887.892.6
多语言|归一化10010099
多语言|原始均值94.792.892.4
多模态 / 文档 / 视觉|归一化57.2587094.879.8
多模态 / 文档 / 视觉|原始均值70.472.776.69184.9

#Arena / 人类偏好 Elo

Arena 项GPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
Text Overall1475.51465.61456.114161438.41463.01432.31470.5
Coding1508.51517.21507.61492.21480.01475.91523.8
Math14961453.21436.91436.11443.61429.71469.3
Instruction Following1465.41468.81441.41424.71449.81428.11463.4
Multi-turn1486.61484.21474.31447.41479.01434.71477.3
Creative Writing1429.91431.51410.81390.91449.21399.31453.7
Hard Prompts1491.01490.21478.81463.41477.21454.81492.7
Hard Prompts English1491.91492.31474.81460.41471.31456.21499.7
Longer Query1474.11482.11454.51443.61454.21439.21491.2

#Agent / 工具 / 真实环境

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
Terminal-Bench 28275.16077.359.149.163.5
CyberGym81.87968.7
BrowseComp84.482.78865.868
OSWorld-Verified78.77572.164.747.3
MCP Atlas75.370.657.769.46471.8
Toolathlon55.654.642.946.340.7
TAU2-Bench9892.893.4
TAU3-Bench70.6
TAU-bench78.377.875.1
GAIA48.240.3
WebArena62.3
ClawEval60.359.857.862.3
DeepSearchQA73.6

#代码 / 软件工程

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
HumanEval959591
SWE-bench Verified84858073.673.777.8
LiveCodeBench84857956.855.252
LiveCodeBench Pro87.5
SWE-Pro58.657.754.456.855.652.149.158.4
SWE-Rebench58.262.7
SciCode52.546.245.8
React Native Evals84.785.380.9
VibeCodeBench69.867.448.061.853.531.5
SWE Multilingual69.869.7
Terminal-Bench 28275.16077.359.149.163.5
NL2Repo42.7

#通用知识 / 事实 / 科学

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
MMLU99999991.7
GPQA93.692.8889792.472.971.286
GPQA Diamond93.692.872.971.286.2
SuperGPQA96959566.8
MMLU-Pro93908882.98385.7
HLE52.252.141.544427.78.152.3
HLE no tools41.439.828.2
FrontierScience91909174
SimpleQA9795954523.184
Chinese SimpleQA75.871.5
HealthBench Hard40.1
MedXpertQA Text59.6

#数学

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
AIME 2023999999
AIME 2024999999
AIME 202599989893.3
AIME 202695.3
HMMT 2023969595
HMMT 2024989797
HMMT 2025979696
HMMT Nov 202594
HMMT Feb 202631.740.882.6
BRUMO 202597969687
MATH-5009997.4999897.4
FrontierMath51.747.640.7
USAMO 202695.2
IMO AnswerBench35.341.9
MM AnswerBench83.8
APEX0.41
APEX Shortlist9.29.3

#推理 / 长上下文

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
MuSR94939382
BBH97989683
LongBench v2929160.8
MRCRv29740.7939373
MRCRv2 64-12883.18647.7
MRCRv2 128-25687.579.333.6
GraphWalks BFS 128k93.176.3
GraphWalks Parents 128k89.871.5
ARC-AGI-28573.352.9
MRCR 1M44.737.5
CorpusQA 1M35.615.5

#指令遵循

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
IFEval9687.4939492.6
IFBench79.478.176.2

#多语言

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
MGSM969695
MMLU-ProX949191

#多模态 / 文档 / 视觉

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
MMMU86.7
MMMU-Pro81.281.276.68979.5
MMMU-Pro Python83.282.178
OfficeQA Pro54.153.29495
CharXiv82.882.1
ERQA65.459.8
SimpleVQA61.155.8
ScreenSpot Pro85.4
ZeroBench41
MedXpertQA MM77.1
RealWorldQA83.3
OmniDocBench 1.585.7
VideoMME w/ sub86
VideoMME no sub85.8
MathVision83
WeMath79
DynaMath86.8
M-Star77.1
ChatCVQA82.1
CC-OCR70.3
AI2D Test92.2
CountBench91.9
VideoMMMU85.9
MLVU Avg85.6
V*75.9
GDPval-AA1672

#韩语专项

BenchmarkGPT-5.5GPT-5.4GPT-5.4 miniGPT-5.3 CodexGPT-5.2DeepSeek V4 ProDeepSeek V4 FlashGLM-5.1
KMMLU83.771.5
KMMLU-Hard72.851.1