#从事实知识反推模型规模:IKP 论文解读与“价格能否替代知识探针”的小实验

这篇论文的核心想法很漂亮:闭源实验室可以隐藏参数量,但很难隐藏模型到底“知道”多少长尾事实。如果一个事实不能靠推理推出,只能来自训练语料中的显式记忆,那么模型能回答到多深的事实长尾,就给出了它参数规模的一个内在下界。

论文标题是 Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity,arXiv:2604.24827。作者把这种探针称为 IKP:Incompressible Knowledge Probes,不可压缩知识探针

我读完后的判断是:这篇文章最有价值的地方,不只是给 GPT-5.5、Claude Opus 4.7 之类模型估了一个“几 T 参数”的数字,而是提出了一种很有启发性的测量范式:

不再问模型会不会做某个 benchmark,而是问它的参数里吸收了多少“不可由推理压缩掉的世界事实”。

这正好对应当前前沿模型评测里的一个关键问题:许多推理 benchmark 越来越饱和,模型看起来“越来越小也能做得很好”;但长尾事实知识不是这样,它仍然更像一个随参数容量扩张的存储问题。


#1. 论文到底想解决什么问题?

闭源模型的参数规模通常不公开。过去大家推测模型大小,常用的是所谓 inference economics:根据 API 价格、吞吐、延迟、GPU 成本、batching、量化、服务栈效率等反推模型规模。

这个思路有一个天然问题:它测到的是“服务一个 token 的经济成本”,而不纯粹是模型本身。价格和吞吐会受到很多外部因素影响:

  • 用什么 GPU / TPU;
  • 是否大 batch;
  • 是否 speculative decoding;
  • 是否 MoE;
  • 是否量化;
  • 厂商是否补贴;
  • API 是否按市场定位定价,而不是按边际成本定价;
  • “Pro / Thinking” 是否主要卖推理时计算,而不是更大的权重。

IKP 试图绕开这些外部变量,改用一个更内在的信号:模型知道多少不可压缩事实

论文的出发点来自一个很生活化的观察:作者和朋友连续几年问前沿模型“你了解中科大 Hackergame 吗?”2024 年 GPT-4o 还会编造不存在的题名;2025 年 Claude 3.7 Sonnet 已能列出 2023 年的 19 道题;2026 年前沿模型能回忆多届比赛的具体题目。这个变化说明:某些很长尾、很具体的事实,会在某个训练周期之后真正进入模型参数。

于是问题变成:如果我们系统构造大量这样的事实探针,能不能反过来估计模型规模?


#2. 为什么“事实知识”可以当作参数量指标?

论文区分了两类能力:

  1. 可压缩的程序性能力:推理、格式理解、指令跟随、数学套路、代码模式等。它们可以随着架构、训练 recipe、后训练、推理时计算而变得更高效。一个 2026 年的 7B 模型可能在某些 benchmark 上接近 2023 年 70B 模型。
  2. 不可压缩的事实容量:例如“某个 obscure 研究者的具体系统叫什么”“某个地方哪年建成”“某个 CTF 比赛某年有哪些题目”。这些信息不能从通用规律推出,必须在参数中以某种形式被存储。

当然,“不可压缩”不是绝对的。比如建校年份大多在一个合理区间内,模型可以利用先验缩小搜索范围。但具体年份、具体人名、具体 artifact 仍然需要事实位元。论文引用了关于 Transformer FFN 作为 key-value memory、事实知识每参数大约存 2–3.6 bits 的相关工作,然后提出一个经验假设:

模型越大,能记住的事实越深入 Web 知识长尾;整体事实准确率与 log(参数量) 呈近似线性关系。

这也是 IKP 能工作的关键。


#3. IKP 数据集具体怎么做?

论文构造了 1400 个问题,分 7 个稀有度层级 T1–T7,每层 200 个问题。问题覆盖研究者、机构创立年份、地理、历史、文化、科学等,其中两个来源最重要:

#3.1 LLM 生成候选:主要负责 T1–T2

作者先让强模型生成一些事实问答候选。结果发现,即使提示模型生成更 obscure 的问题,LLM 也很难稳定生成超出自己知识边界的长尾事实。因此 LLM 生成主要落在 T1–T2,少量补充 T3–T4。

这点很重要:如果让模型自己出题,很容易形成循环评测,只测到出题模型已知的知识边界

#3.2 语料接地候选:负责 T3–T7

更难的问题来自外部语料:

  • Wikidata / Wikipedia:例如大学、期刊、博物馆、桥梁、运动俱乐部、地名的创立年份或属性。论文说这部分有 557 个 probe。
  • DBLP / arXiv / OpenAlex 研究者记录:问某位 CS 研究者的主要子领域,并要求说出一个可验证 artifact,例如论文标题、系统名、机构、合作者等。这部分有 345 个 probe。

研究者 probe 的设计很关键。它不是简单问“某某是谁”,而是问:

In computer science, what is the research subfield of [Name], and name one paper, system, institution, or co-author associated with their work? If you don’t know who this person is, say so.

这样可以区分两种情况:

  • 模型真的知道这个研究者,并能说出真实 artifact;
  • 模型只是根据名字、领域、常见模式编一个 plausible 的答案。

#3.3 质量过滤

论文对 probe 做了多轮过滤,主要排除:

  • 可计算问题:答案能由规则或推理得到,不测记忆;
  • 歧义问题:例如同名实体、名字碰撞;
  • 更强模型反而答错、弱模型答对的非单调问题;
  • ML/AI 领域研究者污染:因为 ML 研究者天然更容易进入模型训练语料,会高估一般事实容量;
  • Wikidata 长尾错误或过时事实。

论文里对 Wikidata 长尾质量问题的讨论很实在:越 obscure 的事实,Wikidata 越可能有错、过时或歧义。因此他们做了人工审计,并承认 T7 中仍有少数错分问题。


#4. 七层稀有度是怎么定义的?

IKP 不是只靠 Common Crawl 频率或 Wikipedia pageview 定层,而是用 landmark models 做经验分层。

论文使用六个 landmark:

层级边界landmark 模型规模
T1/T2Qwen 2.5 0.5B0.5B
T2/T3Qwen 2.5 7B7.6B
T3/T4Qwen 3 32B32B
T4/T5Qwen 3 235B235B
T5/T6Kimi K2.5约 1T
T6/T7Gemini 3.1 ProFrontier

一个 probe 如果某个 landmark 答对、上一个 landmark 答不对,就被分到对应层级。非单调样本会被丢掉。

这带来一个优点:层级是按模型实际知识边界定义的,直接服务于规模估计。也带来一个限制:landmark 会有循环性,特别是 Gemini 3.1 Pro 作为 T6 landmark,会让 Gemini 3.x 家族在 T6 上分数被构造性抬高,所以论文在参数估计表中排除了 Gemini 3.1 Pro 和 Gemini 3.x Flash 家族。


#5. 怎么评分?为什么“胡说”会被扣分?

每个模型用 temperature=0 回答。然后用 Gemini 3 Flash Preview 作为 judge。

普通事实题分三类:

  • CORRECT:正确;
  • REFUSAL:承认不知道;
  • WRONG:自信错误。

研究者题更细:

  • CORRECT_STRONG:子领域正确,并给出可验证 artifact;
  • CORRECT_WEAK:子领域大致正确,但缺少具体证据;
  • WRONG:错领域或编造细节;
  • REFUSAL:不知道。

打分规则:

verdict分数
正确 / strong+1.0
weak+0.5
refusal0
wrong-1.0

也就是说,自信胡说比承认不知道更差。这点对长尾事实很重要,因为模型在不知道时的策略差异很大:有的模型偏保守,有的模型倾向 hallucinate。如果不惩罚错误,激进胡说的模型会被高估。

最终准确率是 7 个 tier 分数的非加权平均。这样 T6/T7 的行为不会被 T1/T2 完全淹没。


#6. 参数估计:核心回归结果

论文在 89 个开源权重模型 上拟合:

其中:

  • A 是 IKP penalized accuracy;
  • N_B 是以 billion 为单位的参数量。

结果:

  • 全部开源模型:R² = 0.917
  • 每增加 10 倍参数,IKP 准确率增加约 14.7 个百分点
  • leave-one-out CV 中,中位 fold error 为 1.59×
  • 68.5% 模型预测落在 2× 内;
  • 87.6% 模型预测落在 3× 内;
  • 90% prediction interval 大约是上下

这意味着它不是精确称重器,而是一个 数量级估计器。比如估 1T,合理区间可能是 0.3T–3T;但它已经足以区分 70B、700B、几 T 这几个层级。

#6.1 MoE:看总参数,不是 active 参数

一个有意思的结果是 MoE 模型:

  • 用总参数拟合 factual knowledge:R² = 0.79;
  • 用 active 参数拟合:R² = 0.51。

这说明事实知识更像分布在全部专家权重里,而不是只由每 token 激活的那部分决定。因此,如果用 IKP 估 MoE 的“知识容量”,更接近总参数而不是 active 参数。


#7. 闭源前沿模型估了多大?

论文把闭源模型投影到开源模型标定曲线上,得到“open-model-equivalent effective knowledge capacity”。注意这不是绝对真实参数,而是等效事实容量。

论文表中部分结果如下:

模型IKP 准确率估计规模
GPT-5.571.9%约 9.7T
Claude Opus 4.668.0%约 5.3T
GPT-5 Pro66.5%约 4.1T
GPT-566.4%约 4.1T
Claude Opus 4.766.4%约 4.0T
o165.4%约 3.5T
Claude Sonnet 4.660.9%约 1.7T
Gemini 2.5 Pro58.4%约 1.2T
GPT-4o55.3%约 720B
GPT-5 Mini51.7%约 410B
GPT-5 Nano40.5%约 71B
Claude Haiku 4.539.9%约 65B

我用论文网站公开数据重新按 calibration.json 的公式算了一遍,部分数值和论文表略有差异,是因为网站数据里有 base / think / pro 的不同条目,论文表对某些模型取了更高分变体。整体量级一致。


#8. 这篇论文还有几个重要发现

#8.1 Thinking mode 提升不大

在 27 组 base / think 模型中,thinking mode 平均只提高约 2.2 个百分点。提升主要在 T3–T4,T7 基本没有提升。

解释是:chain-of-thought 可以帮助检索、组织、减少误答,但不能凭空创造参数里没有的事实。

#8.2 Densing Law 不适用于事实容量

Densing Law 的直觉是:模型能力密度随时间快速提高,同样参数量的新模型越来越强。论文用 96 个有日期的开源模型检验:

如果 Densing Law 适用,时间项应显著为正;但结果是:

  • 时间系数:-0.0010 / 月
  • 95% CI:[-0.0031, +0.0008];
  • 与 0 不可区分;
  • 以 p < 1e-15 拒绝 Densing Law 预测的 +0.0117/月。

这支持论文主张:推理能力可以被压缩,但事实容量很难随时间同等压缩。

#8.3 标准 benchmark 不如 IKP 适合做规模 proxy

论文比较了 MMLU、MMLU-Pro、GPQA Diamond、SimpleQA 等 benchmark。结论是:

  • 推理成分越重的 benchmark,越容易随时间漂移;
  • GPQA Diamond 在固定参数量下每月增长接近 2 个百分点;
  • SimpleQA 作为更纯事实 benchmark,时间漂移接近 0,更像 IKP;
  • IKP 在 matched subset 上通常比这些 benchmark 对参数量的 R² 更高。

#8.4 模型是否认识一个研究者,不由 citation / h-index 单独决定

论文对 345 个研究者 probe 做分析,发现 citations 和 h-index 只能解释一部分方差。更重要的是:

  • 是否有命名清晰、广泛使用的 artifact;
  • 是否有 GitHub、教程、博客、课程材料等 derivative content;
  • 名字是否独特;
  • 所属子领域是否有高密度 Web 生态。

一句话:模型记住的不是“学术影响力”本身,而是训练语料里反复出现、可归因、可检索的文本痕迹

这对科研传播有很直接的启发:一个命名清晰、被大量文档引用的系统,可能比多几篇增量论文更容易进入未来模型的参数记忆。

#8.5 幻觉相似度可以做模型谱系指纹

论文还提出了一个很有意思的 fingerprint:在 T5–T6 长尾事实上,如果两个模型都答错,它们是否给出同一个错误答案

独立训练模型几乎不会在 obscure fact 上编出同一个错答案;如果两个模型共享底座或有蒸馏关系,它们会共享一批错误记忆。

论文用 hallucination similarity 区分:

  • shared base;
  • lineage / post-training;
  • full retrain。

这个思路我觉得比“只看正确集合 Jaccard”更锋利,因为共同正确可能只是大家都知道常识,共同错误才更像参数指纹。


#9. 我的疑问:能不能用 API 价格来替代 IKP?

你的问题很自然:既然模型更大通常更贵,那能不能直接看 API 价格,得到类似的规模排序?

我做了一个小实验:

  • 使用论文网站公开的 models.jsoncalibration.json
  • 使用 OpenRouter api/v1/models 当前公开价格;
  • 将 IKP 模型名手工匹配到 OpenRouter model id;
  • 价格统一换算为 美元 / 1M tokens
  • 对 57 个可匹配模型做分析,其中 46 个为 proprietary,11 个为 open-weight;
  • 分别看 input price、output price、1:1 平均价格与 IKP 等效规模之间的 log-log 相关。

#9.1 结果:价格有相关性,但明显弱于 IKP

在 57 个可匹配模型上:

变量解释 log(IKP 等效规模) 的 R²
input price0.556
output price0.576
1:1 平均价格0.578
1 input : 3 output 加权价格0.577

只看 46 个闭源 / proprietary 模型:

变量
input price0.569
output price0.614
1:1 平均价格0.611
1 input : 3 output 加权价格0.613

对比 IKP 在 89 个开源模型上的 R² = 0.917,可以看到:

API 价格确实携带规模信号,但它只能解释约 0.6 的方差;IKP 能解释约 0.92。价格可以做粗糙 proxy,不能替代知识探针。

#9.2 具体模型价格表

以下是我从 OpenRouter 当前模型列表中匹配到的一些模型价格和 IKP 等效规模。价格单位是美元 / 1M tokens。

模型IKP 准确率IKP 等效规模inputoutput1:1 平均
GPT-5.571.4%8.8T5.0030.0017.50
Claude Opus 4.765.7%3.6T5.0025.0015.00
GPT-566.1%3.9T1.2510.005.63
GPT-5.4 Pro62.5%2.2T30.00180.00105.00
Claude Sonnet 4.658.2%1.1T3.0015.009.00
Gemini 2.5 Pro58.4%1.2T1.2510.005.63
GPT-4o55.3%720B2.5010.006.25
Qwen3-Max55.0%685B0.783.902.34
DeepSeek V4 Pro59.9%1.6T 实际开源参数0.4350.870.65
GPT-5 Mini51.7%410B0.252.001.13
GPT-5 Nano40.5%71B0.050.400.225
Claude Haiku 4.539.9%65B1.005.003.00

这张表直接暴露出价格 proxy 的几个问题。


#10. 为什么价格不能得到“同样好”的结论?

#10.1 Pro 价格主要卖推理时计算,不一定卖更多事实容量

最典型的是 GPT-5.4 Pro:

  • IKP 等效规模约 2.2T;
  • 1:1 平均价格 105 美元 / 1M tokens;
  • 但 GPT-5.5 的 IKP 等效规模约 8.8T,平均价格只有 17.5。

如果只看价格,会严重高估 GPT-5.4 Pro 的“事实容量”。原因很可能是 Pro 的价格包含更高推理预算、更强 agentic / reasoning 配置、更高服务等级,而不是更大的 parametric knowledge。

论文也观察到:Pro 变体相对 base 在 IKP 上提升通常很小。这说明 Pro 的价值主要不在“知道更多事实”。

#10.2 不同厂商定价策略差异太大

DeepSeek V4 Pro 是开源 / open-weight 1.6T MoE,但 OpenRouter 价格非常低:input 0.435,output 0.87 美元 / 1M tokens。按价格看它会显得很“小”,但按实际参数和 IKP 知识容量,它是 T 级模型。

Qwen3-Max 也类似,价格远低于同等 IKP 规模的 OpenAI / Anthropic 模型。

这说明价格混入了厂商商业策略、补贴、区域成本、开源生态竞争等因素。

#10.3 价格受服务栈效率影响,而 IKP 更接近权重内部状态

同样参数量的模型,服务成本可以因以下因素大幅变化:

  • MoE active 参数小;
  • KV cache 优化;
  • speculative decoding;
  • batch 利用率;
  • 量化;
  • provider 是否共享同一底层供应商;
  • 上下文长度和缓存定价。

所以价格是“模型 × 系统 × 商业策略”的混合量;IKP 更像直接测“参数中压进了多少事实”。

#10.4 价格能做带噪声的先验,但不是可靠估计器

我的实验里,价格对 IKP 等效规模的 R² 约 0.58–0.61。这个相关并不低,说明价格不是完全无用。大模型通常更贵,强模型通常更贵,市场也会部分反映计算成本。

但它无法稳定区分:

  • 价格贵是因为模型大,还是因为 reasoning mode 贵;
  • 价格便宜是因为模型小,还是因为厂商补贴 / MoE 高效;
  • output 贵是因为解码成本高,还是因为产品定位高端;
  • 同厂商内部不同版本的价格策略是否连续。

因此更合理的做法是:

用 IKP 给出“事实容量等效规模”,用价格 / 吞吐 / 延迟给出“服务经济约束”,两者结合可以比单独任何一个更稳。

这也与论文 limitation 中的判断一致:IKP 的 90% 区间也有约 3× 宽度,未来如果结合 inference economics,可能收窄区间。


#11. 我对这篇论文的整体评价

我觉得这篇论文有三个强点。

第一,它抓住了一个被 benchmark 饱和掩盖的事实:模型能力不是一个单一维度。推理、指令跟随、工具使用可以通过训练和推理时计算被压缩;但事实记忆仍然是容量问题。

第二,它把“模型知道什么”变成了一个可操作的测量工具。尤其是 researcher probe 和 hallucination similarity,非常适合用来研究模型训练语料、模型谱系、蒸馏关系和版本迭代。

第三,它对科研传播有启发:如果未来基础模型成为人类知识的压缩索引,那么一个工作是否进入模型参数,不只取决于 citation,而取决于它是否在开放 Web 上形成高频、可归因、可复述的文本痕迹。

但它也有明显限制:

  • 高端闭源模型估计是在 >1T 区间外推,开源标定点太少;
  • 安全拒答会让模型被低估;
  • probe 质量依赖长尾数据源,Wikidata / OpenAlex 都有噪声;
  • 公开 probe 会有污染风险;不公开 probe 又影响可复现性;
  • 不同训练数据分布可能让“知识容量等效参数”偏离真实物理参数。

所以我会把 IKP 的估计理解为:

不是“这个模型真实有多少参数”,而是“它在长尾事实记忆上,相当于一个多大参数量的开源模型”。

这个定义反而更有用。因为对使用者而言,真实参数量本来就不是最终目的;我们关心的是模型吸收了多少世界知识,以及这些知识在版本间如何迁移、增长、消失或被拒答策略隐藏。


#12. 对“价格推断规模”的结论

最终回答你的问题:可以用价格推断,但不能达到 IKP 同等质量的结论。

我的小实验显示,OpenRouter 当前 API 价格与 IKP 等效规模有中等相关,R² 大约 0.58–0.61;这说明价格确实有规模信号。但 IKP 在开源标定集上 R² = 0.917,明显更强。

价格更适合作为:

  1. 快速粗排:特别便宜的模型大概率不是最顶级 dense frontier;
  2. 异常检测:如果一个模型价格很低但 IKP 很高,说明它可能是高效 MoE、补贴、或开源竞争定价;
  3. 经济约束:结合吞吐、延迟、硬件成本,反推“服务这个模型至少需要什么系统”。

而 IKP 更适合作为:

  1. 黑盒事实容量估计;
  2. 模型是否经历大规模重训的信号;
  3. 长尾知识吸收边界测量;
  4. 研究者 / artifact 是否进入模型参数的观测工具。

如果要做下一步研究,我会建议把三类信号合并成一个 Bayesian estimator:

  • IKP:测 parametric factual capacity;
  • 价格 / 吞吐 / 延迟:测 serving economics;
  • 行为指纹 / hallucination similarity:测谱系和蒸馏关系。

这样得到的不是单点参数估计,而是一个更可信的 posterior:这个模型可能是多大、是否 MoE、是否共享底座、是否主要靠推理时计算提升。

这可能比“闭源模型到底多少参数”这个问题本身更有价值。