论文精读 2026-04-29 ★★★★★ LLM 模型规模知识容量 API价格论文解读

#从事实知识反推模型规模：IKP 论文解读与“价格能否替代知识探针”的小实验

这篇论文的核心想法很漂亮：闭源实验室可以隐藏参数量，但很难隐藏模型到底“知道”多少长尾事实。如果一个事实不能靠推理推出，只能来自训练语料中的显式记忆，那么模型能回答到多深的事实长尾，就给出了它参数规模的一个内在下界。

论文标题是 Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity，arXiv:2604.24827。作者把这种探针称为 IKP：Incompressible Knowledge Probes，不可压缩知识探针。

我读完后的判断是：这篇文章最有价值的地方，不只是给 GPT-5.5、Claude Opus 4.7 之类模型估了一个“几 T 参数”的数字，而是提出了一种很有启发性的测量范式：

不再问模型会不会做某个 benchmark，而是问它的参数里吸收了多少“不可由推理压缩掉的世界事实”。

这正好对应当前前沿模型评测里的一个关键问题：许多推理 benchmark 越来越饱和，模型看起来“越来越小也能做得很好”；但长尾事实知识不是这样，它仍然更像一个随参数容量扩张的存储问题。

#1. 论文到底想解决什么问题？

闭源模型的参数规模通常不公开。过去大家推测模型大小，常用的是所谓 inference economics：根据 API 价格、吞吐、延迟、GPU 成本、batching、量化、服务栈效率等反推模型规模。

这个思路有一个天然问题：它测到的是“服务一个 token 的经济成本”，而不纯粹是模型本身。价格和吞吐会受到很多外部因素影响：

用什么 GPU / TPU；
是否大 batch；
是否 speculative decoding；
是否 MoE；
是否量化；
厂商是否补贴；
API 是否按市场定位定价，而不是按边际成本定价；
“Pro / Thinking” 是否主要卖推理时计算，而不是更大的权重。

IKP 试图绕开这些外部变量，改用一个更内在的信号：模型知道多少不可压缩事实。

论文的出发点来自一个很生活化的观察：作者和朋友连续几年问前沿模型“你了解中科大 Hackergame 吗？”2024 年 GPT-4o 还会编造不存在的题名；2025 年 Claude 3.7 Sonnet 已能列出 2023 年的 19 道题；2026 年前沿模型能回忆多届比赛的具体题目。这个变化说明：某些很长尾、很具体的事实，会在某个训练周期之后真正进入模型参数。

于是问题变成：如果我们系统构造大量这样的事实探针，能不能反过来估计模型规模？

#2. 为什么“事实知识”可以当作参数量指标？

论文区分了两类能力：

可压缩的程序性能力：推理、格式理解、指令跟随、数学套路、代码模式等。它们可以随着架构、训练 recipe、后训练、推理时计算而变得更高效。一个 2026 年的 7B 模型可能在某些 benchmark 上接近 2023 年 70B 模型。
不可压缩的事实容量：例如“某个 obscure 研究者的具体系统叫什么”“某个地方哪年建成”“某个 CTF 比赛某年有哪些题目”。这些信息不能从通用规律推出，必须在参数中以某种形式被存储。

当然，“不可压缩”不是绝对的。比如建校年份大多在一个合理区间内，模型可以利用先验缩小搜索范围。但具体年份、具体人名、具体 artifact 仍然需要事实位元。论文引用了关于 Transformer FFN 作为 key-value memory、事实知识每参数大约存 2–3.6 bits 的相关工作，然后提出一个经验假设：

模型越大，能记住的事实越深入 Web 知识长尾；整体事实准确率与 log(参数量) 呈近似线性关系。

这也是 IKP 能工作的关键。

#3. IKP 数据集具体怎么做？

论文构造了 1400 个问题，分 7 个稀有度层级 T1–T7，每层 200 个问题。问题覆盖研究者、机构创立年份、地理、历史、文化、科学等，其中两个来源最重要：

#3.1 LLM 生成候选：主要负责 T1–T2

作者先让强模型生成一些事实问答候选。结果发现，即使提示模型生成更 obscure 的问题，LLM 也很难稳定生成超出自己知识边界的长尾事实。因此 LLM 生成主要落在 T1–T2，少量补充 T3–T4。

这点很重要：如果让模型自己出题，很容易形成循环评测，只测到出题模型已知的知识边界。

#3.2 语料接地候选：负责 T3–T7

更难的问题来自外部语料：

Wikidata / Wikipedia：例如大学、期刊、博物馆、桥梁、运动俱乐部、地名的创立年份或属性。论文说这部分有 557 个 probe。
DBLP / arXiv / OpenAlex 研究者记录：问某位 CS 研究者的主要子领域，并要求说出一个可验证 artifact，例如论文标题、系统名、机构、合作者等。这部分有 345 个 probe。

研究者 probe 的设计很关键。它不是简单问“某某是谁”，而是问：

In computer science, what is the research subfield of [Name], and name one paper, system, institution, or co-author associated with their work? If you don’t know who this person is, say so.

这样可以区分两种情况：

模型真的知道这个研究者，并能说出真实 artifact；
模型只是根据名字、领域、常见模式编一个 plausible 的答案。

#3.3 质量过滤

论文对 probe 做了多轮过滤，主要排除：

可计算问题：答案能由规则或推理得到，不测记忆；
歧义问题：例如同名实体、名字碰撞；
更强模型反而答错、弱模型答对的非单调问题；
ML/AI 领域研究者污染：因为 ML 研究者天然更容易进入模型训练语料，会高估一般事实容量；
Wikidata 长尾错误或过时事实。

论文里对 Wikidata 长尾质量问题的讨论很实在：越 obscure 的事实，Wikidata 越可能有错、过时或歧义。因此他们做了人工审计，并承认 T7 中仍有少数错分问题。

#4. 七层稀有度是怎么定义的？

IKP 不是只靠 Common Crawl 频率或 Wikipedia pageview 定层，而是用 landmark models 做经验分层。

论文使用六个 landmark：

层级边界	landmark 模型	规模
T1/T2	Qwen 2.5 0.5B	0.5B
T2/T3	Qwen 2.5 7B	7.6B
T3/T4	Qwen 3 32B	32B
T4/T5	Qwen 3 235B	235B
T5/T6	Kimi K2.5	约 1T
T6/T7	Gemini 3.1 Pro	Frontier

一个 probe 如果某个 landmark 答对、上一个 landmark 答不对，就被分到对应层级。非单调样本会被丢掉。

这带来一个优点：层级是按模型实际知识边界定义的，直接服务于规模估计。也带来一个限制：landmark 会有循环性，特别是 Gemini 3.1 Pro 作为 T6 landmark，会让 Gemini 3.x 家族在 T6 上分数被构造性抬高，所以论文在参数估计表中排除了 Gemini 3.1 Pro 和 Gemini 3.x Flash 家族。

#5. 怎么评分？为什么“胡说”会被扣分？

每个模型用 temperature=0 回答。然后用 Gemini 3 Flash Preview 作为 judge。

普通事实题分三类：

CORRECT：正确；
REFUSAL：承认不知道；
WRONG：自信错误。

研究者题更细：

CORRECT_STRONG：子领域正确，并给出可验证 artifact；
CORRECT_WEAK：子领域大致正确，但缺少具体证据；
WRONG：错领域或编造细节；
REFUSAL：不知道。

打分规则：

verdict	分数
正确 / strong	+1.0
weak	+0.5
refusal	0
wrong	-1.0

也就是说，自信胡说比承认不知道更差。这点对长尾事实很重要，因为模型在不知道时的策略差异很大：有的模型偏保守，有的模型倾向 hallucinate。如果不惩罚错误，激进胡说的模型会被高估。

最终准确率是 7 个 tier 分数的非加权平均。这样 T6/T7 的行为不会被 T1/T2 完全淹没。

#6. 参数估计：核心回归结果

论文在 89 个开源权重模型 上拟合：

A = \alpha \cdot \log_{10}(N_B) + \beta

其中：

A 是 IKP penalized accuracy；
N_B 是以 billion 为单位的参数量。

结果：

全部开源模型：R² = 0.917；
每增加 10 倍参数，IKP 准确率增加约 14.7 个百分点；
leave-one-out CV 中，中位 fold error 为 1.59×；
68.5% 模型预测落在 2× 内；
87.6% 模型预测落在 3× 内；
90% prediction interval 大约是上下 3×。

这意味着它不是精确称重器，而是一个 数量级估计器。比如估 1T，合理区间可能是 0.3T–3T；但它已经足以区分 70B、700B、几 T 这几个层级。

#6.1 MoE：看总参数，不是 active 参数

一个有意思的结果是 MoE 模型：

用总参数拟合 factual knowledge：R² = 0.79；
用 active 参数拟合：R² = 0.51。

这说明事实知识更像分布在全部专家权重里，而不是只由每 token 激活的那部分决定。因此，如果用 IKP 估 MoE 的“知识容量”，更接近总参数而不是 active 参数。

#7. 闭源前沿模型估了多大？

论文把闭源模型投影到开源模型标定曲线上，得到“open-model-equivalent effective knowledge capacity”。注意这不是绝对真实参数，而是等效事实容量。

论文表中部分结果如下：

模型	IKP 准确率	估计规模
GPT-5.5	71.9%	约 9.7T
Claude Opus 4.6	68.0%	约 5.3T
GPT-5 Pro	66.5%	约 4.1T
GPT-5	66.4%	约 4.1T
Claude Opus 4.7	66.4%	约 4.0T
o1	65.4%	约 3.5T
Claude Sonnet 4.6	60.9%	约 1.7T
Gemini 2.5 Pro	58.4%	约 1.2T
GPT-4o	55.3%	约 720B
GPT-5 Mini	51.7%	约 410B
GPT-5 Nano	40.5%	约 71B
Claude Haiku 4.5	39.9%	约 65B

我用论文网站公开数据重新按 calibration.json 的公式算了一遍，部分数值和论文表略有差异，是因为网站数据里有 base / think / pro 的不同条目，论文表对某些模型取了更高分变体。整体量级一致。

#8. 这篇论文还有几个重要发现

#8.1 Thinking mode 提升不大

在 27 组 base / think 模型中，thinking mode 平均只提高约 2.2 个百分点。提升主要在 T3–T4，T7 基本没有提升。

解释是：chain-of-thought 可以帮助检索、组织、减少误答，但不能凭空创造参数里没有的事实。

#8.2 Densing Law 不适用于事实容量

Densing Law 的直觉是：模型能力密度随时间快速提高，同样参数量的新模型越来越强。论文用 96 个有日期的开源模型检验：

\text{IKP accuracy} = \beta_0 + \beta_1 \log_{10}(N) + \beta_2 \cdot \text{months}

如果 Densing Law 适用，时间项应显著为正；但结果是：

时间系数：-0.0010 / 月；
95% CI：[-0.0031, +0.0008]；
与 0 不可区分；
以 p < 1e-15 拒绝 Densing Law 预测的 +0.0117/月。

这支持论文主张：推理能力可以被压缩，但事实容量很难随时间同等压缩。

#8.3 标准 benchmark 不如 IKP 适合做规模 proxy

论文比较了 MMLU、MMLU-Pro、GPQA Diamond、SimpleQA 等 benchmark。结论是：

推理成分越重的 benchmark，越容易随时间漂移；
GPQA Diamond 在固定参数量下每月增长接近 2 个百分点；
SimpleQA 作为更纯事实 benchmark，时间漂移接近 0，更像 IKP；
IKP 在 matched subset 上通常比这些 benchmark 对参数量的 R² 更高。

#8.4 模型是否认识一个研究者，不由 citation / h-index 单独决定

论文对 345 个研究者 probe 做分析，发现 citations 和 h-index 只能解释一部分方差。更重要的是：

是否有命名清晰、广泛使用的 artifact；
是否有 GitHub、教程、博客、课程材料等 derivative content；
名字是否独特；
所属子领域是否有高密度 Web 生态。

一句话：模型记住的不是“学术影响力”本身，而是训练语料里反复出现、可归因、可检索的文本痕迹。

这对科研传播有很直接的启发：一个命名清晰、被大量文档引用的系统，可能比多几篇增量论文更容易进入未来模型的参数记忆。

#8.5 幻觉相似度可以做模型谱系指纹

论文还提出了一个很有意思的 fingerprint：在 T5–T6 长尾事实上，如果两个模型都答错，它们是否给出同一个错误答案？

独立训练模型几乎不会在 obscure fact 上编出同一个错答案；如果两个模型共享底座或有蒸馏关系，它们会共享一批错误记忆。

论文用 hallucination similarity 区分：

shared base；
lineage / post-training；
full retrain。

这个思路我觉得比“只看正确集合 Jaccard”更锋利，因为共同正确可能只是大家都知道常识，共同错误才更像参数指纹。

#9. 我的疑问：能不能用 API 价格来替代 IKP？

你的问题很自然：既然模型更大通常更贵，那能不能直接看 API 价格，得到类似的规模排序？

我做了一个小实验：

使用论文网站公开的 models.json 和 calibration.json；
使用 OpenRouter api/v1/models 当前公开价格；
将 IKP 模型名手工匹配到 OpenRouter model id；
价格统一换算为 美元 / 1M tokens；
对 57 个可匹配模型做分析，其中 46 个为 proprietary，11 个为 open-weight；
分别看 input price、output price、1:1 平均价格与 IKP 等效规模之间的 log-log 相关。

#9.1 结果：价格有相关性，但明显弱于 IKP

在 57 个可匹配模型上：

变量	解释 log(IKP 等效规模) 的 R²
input price	0.556
output price	0.576
1:1 平均价格	0.578
1 input : 3 output 加权价格	0.577

只看 46 个闭源 / proprietary 模型：

变量	R²
input price	0.569
output price	0.614
1:1 平均价格	0.611
1 input : 3 output 加权价格	0.613

对比 IKP 在 89 个开源模型上的 R² = 0.917，可以看到：

API 价格确实携带规模信号，但它只能解释约 0.6 的方差；IKP 能解释约 0.92。价格可以做粗糙 proxy，不能替代知识探针。

#9.2 具体模型价格表

以下是我从 OpenRouter 当前模型列表中匹配到的一些模型价格和 IKP 等效规模。价格单位是美元 / 1M tokens。

模型	IKP 准确率	IKP 等效规模	input	output	1:1 平均
GPT-5.5	71.4%	8.8T	5.00	30.00	17.50
Claude Opus 4.7	65.7%	3.6T	5.00	25.00	15.00
GPT-5	66.1%	3.9T	1.25	10.00	5.63
GPT-5.4 Pro	62.5%	2.2T	30.00	180.00	105.00
Claude Sonnet 4.6	58.2%	1.1T	3.00	15.00	9.00
Gemini 2.5 Pro	58.4%	1.2T	1.25	10.00	5.63
GPT-4o	55.3%	720B	2.50	10.00	6.25
Qwen3-Max	55.0%	685B	0.78	3.90	2.34
DeepSeek V4 Pro	59.9%	1.6T 实际开源参数	0.435	0.87	0.65
GPT-5 Mini	51.7%	410B	0.25	2.00	1.13
GPT-5 Nano	40.5%	71B	0.05	0.40	0.225
Claude Haiku 4.5	39.9%	65B	1.00	5.00	3.00

这张表直接暴露出价格 proxy 的几个问题。

#10. 为什么价格不能得到“同样好”的结论？

#10.1 Pro 价格主要卖推理时计算，不一定卖更多事实容量

最典型的是 GPT-5.4 Pro：

IKP 等效规模约 2.2T；
1:1 平均价格 105 美元 / 1M tokens；
但 GPT-5.5 的 IKP 等效规模约 8.8T，平均价格只有 17.5。

如果只看价格，会严重高估 GPT-5.4 Pro 的“事实容量”。原因很可能是 Pro 的价格包含更高推理预算、更强 agentic / reasoning 配置、更高服务等级，而不是更大的 parametric knowledge。

论文也观察到：Pro 变体相对 base 在 IKP 上提升通常很小。这说明 Pro 的价值主要不在“知道更多事实”。

#10.2 不同厂商定价策略差异太大

DeepSeek V4 Pro 是开源 / open-weight 1.6T MoE，但 OpenRouter 价格非常低：input 0.435，output 0.87 美元 / 1M tokens。按价格看它会显得很“小”，但按实际参数和 IKP 知识容量，它是 T 级模型。

Qwen3-Max 也类似，价格远低于同等 IKP 规模的 OpenAI / Anthropic 模型。

这说明价格混入了厂商商业策略、补贴、区域成本、开源生态竞争等因素。

#10.3 价格受服务栈效率影响，而 IKP 更接近权重内部状态

同样参数量的模型，服务成本可以因以下因素大幅变化：

MoE active 参数小；
KV cache 优化；
speculative decoding；
batch 利用率；
量化；
provider 是否共享同一底层供应商；
上下文长度和缓存定价。

所以价格是“模型 × 系统 × 商业策略”的混合量；IKP 更像直接测“参数中压进了多少事实”。

#10.4 价格能做带噪声的先验，但不是可靠估计器

我的实验里，价格对 IKP 等效规模的 R² 约 0.58–0.61。这个相关并不低，说明价格不是完全无用。大模型通常更贵，强模型通常更贵，市场也会部分反映计算成本。

但它无法稳定区分：

价格贵是因为模型大，还是因为 reasoning mode 贵；
价格便宜是因为模型小，还是因为厂商补贴 / MoE 高效；
output 贵是因为解码成本高，还是因为产品定位高端；
同厂商内部不同版本的价格策略是否连续。

因此更合理的做法是：

用 IKP 给出“事实容量等效规模”，用价格 / 吞吐 / 延迟给出“服务经济约束”，两者结合可以比单独任何一个更稳。

这也与论文 limitation 中的判断一致：IKP 的 90% 区间也有约 3× 宽度，未来如果结合 inference economics，可能收窄区间。

#11. 我对这篇论文的整体评价

我觉得这篇论文有三个强点。

第一，它抓住了一个被 benchmark 饱和掩盖的事实：模型能力不是一个单一维度。推理、指令跟随、工具使用可以通过训练和推理时计算被压缩；但事实记忆仍然是容量问题。

第二，它把“模型知道什么”变成了一个可操作的测量工具。尤其是 researcher probe 和 hallucination similarity，非常适合用来研究模型训练语料、模型谱系、蒸馏关系和版本迭代。

第三，它对科研传播有启发：如果未来基础模型成为人类知识的压缩索引，那么一个工作是否进入模型参数，不只取决于 citation，而取决于它是否在开放 Web 上形成高频、可归因、可复述的文本痕迹。

但它也有明显限制：

高端闭源模型估计是在 >1T 区间外推，开源标定点太少；
安全拒答会让模型被低估；
probe 质量依赖长尾数据源，Wikidata / OpenAlex 都有噪声；
公开 probe 会有污染风险；不公开 probe 又影响可复现性；
不同训练数据分布可能让“知识容量等效参数”偏离真实物理参数。

所以我会把 IKP 的估计理解为：

不是“这个模型真实有多少参数”，而是“它在长尾事实记忆上，相当于一个多大参数量的开源模型”。

这个定义反而更有用。因为对使用者而言，真实参数量本来就不是最终目的；我们关心的是模型吸收了多少世界知识，以及这些知识在版本间如何迁移、增长、消失或被拒答策略隐藏。

#12. 对“价格推断规模”的结论

最终回答你的问题：可以用价格推断，但不能达到 IKP 同等质量的结论。

我的小实验显示，OpenRouter 当前 API 价格与 IKP 等效规模有中等相关，R² 大约 0.58–0.61；这说明价格确实有规模信号。但 IKP 在开源标定集上 R² = 0.917，明显更强。

价格更适合作为：

快速粗排：特别便宜的模型大概率不是最顶级 dense frontier；
异常检测：如果一个模型价格很低但 IKP 很高，说明它可能是高效 MoE、补贴、或开源竞争定价；
经济约束：结合吞吐、延迟、硬件成本，反推“服务这个模型至少需要什么系统”。

而 IKP 更适合作为：

黑盒事实容量估计；
模型是否经历大规模重训的信号；
长尾知识吸收边界测量；
研究者 / artifact 是否进入模型参数的观测工具。

如果要做下一步研究，我会建议把三类信号合并成一个 Bayesian estimator：

IKP：测 parametric factual capacity；
价格 / 吞吐 / 延迟：测 serving economics；
行为指纹 / hallucination similarity：测谱系和蒸馏关系。

这样得到的不是单点参数估计，而是一个更可信的 posterior：这个模型可能是多大、是否 MoE、是否共享底座、是否主要靠推理时计算提升。

这可能比“闭源模型到底多少参数”这个问题本身更有价值。