#从事实知识反推模型规模:IKP 论文解读与“价格能否替代知识探针”的小实验
这篇论文的核心想法很漂亮:闭源实验室可以隐藏参数量,但很难隐藏模型到底“知道”多少长尾事实。如果一个事实不能靠推理推出,只能来自训练语料中的显式记忆,那么模型能回答到多深的事实长尾,就给出了它参数规模的一个内在下界。
论文标题是 Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity,arXiv:2604.24827。作者把这种探针称为 IKP:Incompressible Knowledge Probes,不可压缩知识探针。
我读完后的判断是:这篇文章最有价值的地方,不只是给 GPT-5.5、Claude Opus 4.7 之类模型估了一个“几 T 参数”的数字,而是提出了一种很有启发性的测量范式:
不再问模型会不会做某个 benchmark,而是问它的参数里吸收了多少“不可由推理压缩掉的世界事实”。
这正好对应当前前沿模型评测里的一个关键问题:许多推理 benchmark 越来越饱和,模型看起来“越来越小也能做得很好”;但长尾事实知识不是这样,它仍然更像一个随参数容量扩张的存储问题。
#1. 论文到底想解决什么问题?
闭源模型的参数规模通常不公开。过去大家推测模型大小,常用的是所谓 inference economics:根据 API 价格、吞吐、延迟、GPU 成本、batching、量化、服务栈效率等反推模型规模。
这个思路有一个天然问题:它测到的是“服务一个 token 的经济成本”,而不纯粹是模型本身。价格和吞吐会受到很多外部因素影响:
- 用什么 GPU / TPU;
- 是否大 batch;
- 是否 speculative decoding;
- 是否 MoE;
- 是否量化;
- 厂商是否补贴;
- API 是否按市场定位定价,而不是按边际成本定价;
- “Pro / Thinking” 是否主要卖推理时计算,而不是更大的权重。
IKP 试图绕开这些外部变量,改用一个更内在的信号:模型知道多少不可压缩事实。
论文的出发点来自一个很生活化的观察:作者和朋友连续几年问前沿模型“你了解中科大 Hackergame 吗?”2024 年 GPT-4o 还会编造不存在的题名;2025 年 Claude 3.7 Sonnet 已能列出 2023 年的 19 道题;2026 年前沿模型能回忆多届比赛的具体题目。这个变化说明:某些很长尾、很具体的事实,会在某个训练周期之后真正进入模型参数。
于是问题变成:如果我们系统构造大量这样的事实探针,能不能反过来估计模型规模?
#2. 为什么“事实知识”可以当作参数量指标?
论文区分了两类能力:
- 可压缩的程序性能力:推理、格式理解、指令跟随、数学套路、代码模式等。它们可以随着架构、训练 recipe、后训练、推理时计算而变得更高效。一个 2026 年的 7B 模型可能在某些 benchmark 上接近 2023 年 70B 模型。
- 不可压缩的事实容量:例如“某个 obscure 研究者的具体系统叫什么”“某个地方哪年建成”“某个 CTF 比赛某年有哪些题目”。这些信息不能从通用规律推出,必须在参数中以某种形式被存储。
当然,“不可压缩”不是绝对的。比如建校年份大多在一个合理区间内,模型可以利用先验缩小搜索范围。但具体年份、具体人名、具体 artifact 仍然需要事实位元。论文引用了关于 Transformer FFN 作为 key-value memory、事实知识每参数大约存 2–3.6 bits 的相关工作,然后提出一个经验假设:
模型越大,能记住的事实越深入 Web 知识长尾;整体事实准确率与 log(参数量) 呈近似线性关系。
这也是 IKP 能工作的关键。
#3. IKP 数据集具体怎么做?
论文构造了 1400 个问题,分 7 个稀有度层级 T1–T7,每层 200 个问题。问题覆盖研究者、机构创立年份、地理、历史、文化、科学等,其中两个来源最重要:
#3.1 LLM 生成候选:主要负责 T1–T2
作者先让强模型生成一些事实问答候选。结果发现,即使提示模型生成更 obscure 的问题,LLM 也很难稳定生成超出自己知识边界的长尾事实。因此 LLM 生成主要落在 T1–T2,少量补充 T3–T4。
这点很重要:如果让模型自己出题,很容易形成循环评测,只测到出题模型已知的知识边界。
#3.2 语料接地候选:负责 T3–T7
更难的问题来自外部语料:
- Wikidata / Wikipedia:例如大学、期刊、博物馆、桥梁、运动俱乐部、地名的创立年份或属性。论文说这部分有 557 个 probe。
- DBLP / arXiv / OpenAlex 研究者记录:问某位 CS 研究者的主要子领域,并要求说出一个可验证 artifact,例如论文标题、系统名、机构、合作者等。这部分有 345 个 probe。
研究者 probe 的设计很关键。它不是简单问“某某是谁”,而是问:
In computer science, what is the research subfield of [Name], and name one paper, system, institution, or co-author associated with their work? If you don’t know who this person is, say so.
这样可以区分两种情况:
- 模型真的知道这个研究者,并能说出真实 artifact;
- 模型只是根据名字、领域、常见模式编一个 plausible 的答案。
#3.3 质量过滤
论文对 probe 做了多轮过滤,主要排除:
- 可计算问题:答案能由规则或推理得到,不测记忆;
- 歧义问题:例如同名实体、名字碰撞;
- 更强模型反而答错、弱模型答对的非单调问题;
- ML/AI 领域研究者污染:因为 ML 研究者天然更容易进入模型训练语料,会高估一般事实容量;
- Wikidata 长尾错误或过时事实。
论文里对 Wikidata 长尾质量问题的讨论很实在:越 obscure 的事实,Wikidata 越可能有错、过时或歧义。因此他们做了人工审计,并承认 T7 中仍有少数错分问题。
#4. 七层稀有度是怎么定义的?
IKP 不是只靠 Common Crawl 频率或 Wikipedia pageview 定层,而是用 landmark models 做经验分层。
论文使用六个 landmark:
| 层级边界 | landmark 模型 | 规模 |
|---|---|---|
| T1/T2 | Qwen 2.5 0.5B | 0.5B |
| T2/T3 | Qwen 2.5 7B | 7.6B |
| T3/T4 | Qwen 3 32B | 32B |
| T4/T5 | Qwen 3 235B | 235B |
| T5/T6 | Kimi K2.5 | 约 1T |
| T6/T7 | Gemini 3.1 Pro | Frontier |
一个 probe 如果某个 landmark 答对、上一个 landmark 答不对,就被分到对应层级。非单调样本会被丢掉。
这带来一个优点:层级是按模型实际知识边界定义的,直接服务于规模估计。也带来一个限制:landmark 会有循环性,特别是 Gemini 3.1 Pro 作为 T6 landmark,会让 Gemini 3.x 家族在 T6 上分数被构造性抬高,所以论文在参数估计表中排除了 Gemini 3.1 Pro 和 Gemini 3.x Flash 家族。
#5. 怎么评分?为什么“胡说”会被扣分?
每个模型用 temperature=0 回答。然后用 Gemini 3 Flash Preview 作为 judge。
普通事实题分三类:
- CORRECT:正确;
- REFUSAL:承认不知道;
- WRONG:自信错误。
研究者题更细:
- CORRECT_STRONG:子领域正确,并给出可验证 artifact;
- CORRECT_WEAK:子领域大致正确,但缺少具体证据;
- WRONG:错领域或编造细节;
- REFUSAL:不知道。
打分规则:
| verdict | 分数 |
|---|---|
| 正确 / strong | +1.0 |
| weak | +0.5 |
| refusal | 0 |
| wrong | -1.0 |
也就是说,自信胡说比承认不知道更差。这点对长尾事实很重要,因为模型在不知道时的策略差异很大:有的模型偏保守,有的模型倾向 hallucinate。如果不惩罚错误,激进胡说的模型会被高估。
最终准确率是 7 个 tier 分数的非加权平均。这样 T6/T7 的行为不会被 T1/T2 完全淹没。
#6. 参数估计:核心回归结果
论文在 89 个开源权重模型 上拟合:
其中:
- A 是 IKP penalized accuracy;
- N_B 是以 billion 为单位的参数量。
结果:
- 全部开源模型:R² = 0.917;
- 每增加 10 倍参数,IKP 准确率增加约 14.7 个百分点;
- leave-one-out CV 中,中位 fold error 为 1.59×;
- 68.5% 模型预测落在 2× 内;
- 87.6% 模型预测落在 3× 内;
- 90% prediction interval 大约是上下 3×。
这意味着它不是精确称重器,而是一个 数量级估计器。比如估 1T,合理区间可能是 0.3T–3T;但它已经足以区分 70B、700B、几 T 这几个层级。
#6.1 MoE:看总参数,不是 active 参数
一个有意思的结果是 MoE 模型:
- 用总参数拟合 factual knowledge:R² = 0.79;
- 用 active 参数拟合:R² = 0.51。
这说明事实知识更像分布在全部专家权重里,而不是只由每 token 激活的那部分决定。因此,如果用 IKP 估 MoE 的“知识容量”,更接近总参数而不是 active 参数。
#7. 闭源前沿模型估了多大?
论文把闭源模型投影到开源模型标定曲线上,得到“open-model-equivalent effective knowledge capacity”。注意这不是绝对真实参数,而是等效事实容量。
论文表中部分结果如下:
| 模型 | IKP 准确率 | 估计规模 |
|---|---|---|
| GPT-5.5 | 71.9% | 约 9.7T |
| Claude Opus 4.6 | 68.0% | 约 5.3T |
| GPT-5 Pro | 66.5% | 约 4.1T |
| GPT-5 | 66.4% | 约 4.1T |
| Claude Opus 4.7 | 66.4% | 约 4.0T |
| o1 | 65.4% | 约 3.5T |
| Claude Sonnet 4.6 | 60.9% | 约 1.7T |
| Gemini 2.5 Pro | 58.4% | 约 1.2T |
| GPT-4o | 55.3% | 约 720B |
| GPT-5 Mini | 51.7% | 约 410B |
| GPT-5 Nano | 40.5% | 约 71B |
| Claude Haiku 4.5 | 39.9% | 约 65B |
我用论文网站公开数据重新按 calibration.json 的公式算了一遍,部分数值和论文表略有差异,是因为网站数据里有 base / think / pro 的不同条目,论文表对某些模型取了更高分变体。整体量级一致。
#8. 这篇论文还有几个重要发现
#8.1 Thinking mode 提升不大
在 27 组 base / think 模型中,thinking mode 平均只提高约 2.2 个百分点。提升主要在 T3–T4,T7 基本没有提升。
解释是:chain-of-thought 可以帮助检索、组织、减少误答,但不能凭空创造参数里没有的事实。
#8.2 Densing Law 不适用于事实容量
Densing Law 的直觉是:模型能力密度随时间快速提高,同样参数量的新模型越来越强。论文用 96 个有日期的开源模型检验:
如果 Densing Law 适用,时间项应显著为正;但结果是:
- 时间系数:-0.0010 / 月;
- 95% CI:[-0.0031, +0.0008];
- 与 0 不可区分;
- 以 p < 1e-15 拒绝 Densing Law 预测的 +0.0117/月。
这支持论文主张:推理能力可以被压缩,但事实容量很难随时间同等压缩。
#8.3 标准 benchmark 不如 IKP 适合做规模 proxy
论文比较了 MMLU、MMLU-Pro、GPQA Diamond、SimpleQA 等 benchmark。结论是:
- 推理成分越重的 benchmark,越容易随时间漂移;
- GPQA Diamond 在固定参数量下每月增长接近 2 个百分点;
- SimpleQA 作为更纯事实 benchmark,时间漂移接近 0,更像 IKP;
- IKP 在 matched subset 上通常比这些 benchmark 对参数量的 R² 更高。
#8.4 模型是否认识一个研究者,不由 citation / h-index 单独决定
论文对 345 个研究者 probe 做分析,发现 citations 和 h-index 只能解释一部分方差。更重要的是:
- 是否有命名清晰、广泛使用的 artifact;
- 是否有 GitHub、教程、博客、课程材料等 derivative content;
- 名字是否独特;
- 所属子领域是否有高密度 Web 生态。
一句话:模型记住的不是“学术影响力”本身,而是训练语料里反复出现、可归因、可检索的文本痕迹。
这对科研传播有很直接的启发:一个命名清晰、被大量文档引用的系统,可能比多几篇增量论文更容易进入未来模型的参数记忆。
#8.5 幻觉相似度可以做模型谱系指纹
论文还提出了一个很有意思的 fingerprint:在 T5–T6 长尾事实上,如果两个模型都答错,它们是否给出同一个错误答案?
独立训练模型几乎不会在 obscure fact 上编出同一个错答案;如果两个模型共享底座或有蒸馏关系,它们会共享一批错误记忆。
论文用 hallucination similarity 区分:
- shared base;
- lineage / post-training;
- full retrain。
这个思路我觉得比“只看正确集合 Jaccard”更锋利,因为共同正确可能只是大家都知道常识,共同错误才更像参数指纹。
#9. 我的疑问:能不能用 API 价格来替代 IKP?
你的问题很自然:既然模型更大通常更贵,那能不能直接看 API 价格,得到类似的规模排序?
我做了一个小实验:
- 使用论文网站公开的
models.json和calibration.json; - 使用 OpenRouter
api/v1/models当前公开价格; - 将 IKP 模型名手工匹配到 OpenRouter model id;
- 价格统一换算为 美元 / 1M tokens;
- 对 57 个可匹配模型做分析,其中 46 个为 proprietary,11 个为 open-weight;
- 分别看 input price、output price、1:1 平均价格与 IKP 等效规模之间的 log-log 相关。
#9.1 结果:价格有相关性,但明显弱于 IKP
在 57 个可匹配模型上:
| 变量 | 解释 log(IKP 等效规模) 的 R² |
|---|---|
| input price | 0.556 |
| output price | 0.576 |
| 1:1 平均价格 | 0.578 |
| 1 input : 3 output 加权价格 | 0.577 |
只看 46 个闭源 / proprietary 模型:
| 变量 | R² |
|---|---|
| input price | 0.569 |
| output price | 0.614 |
| 1:1 平均价格 | 0.611 |
| 1 input : 3 output 加权价格 | 0.613 |
对比 IKP 在 89 个开源模型上的 R² = 0.917,可以看到:
API 价格确实携带规模信号,但它只能解释约 0.6 的方差;IKP 能解释约 0.92。价格可以做粗糙 proxy,不能替代知识探针。
#9.2 具体模型价格表
以下是我从 OpenRouter 当前模型列表中匹配到的一些模型价格和 IKP 等效规模。价格单位是美元 / 1M tokens。
| 模型 | IKP 准确率 | IKP 等效规模 | input | output | 1:1 平均 |
|---|---|---|---|---|---|
| GPT-5.5 | 71.4% | 8.8T | 5.00 | 30.00 | 17.50 |
| Claude Opus 4.7 | 65.7% | 3.6T | 5.00 | 25.00 | 15.00 |
| GPT-5 | 66.1% | 3.9T | 1.25 | 10.00 | 5.63 |
| GPT-5.4 Pro | 62.5% | 2.2T | 30.00 | 180.00 | 105.00 |
| Claude Sonnet 4.6 | 58.2% | 1.1T | 3.00 | 15.00 | 9.00 |
| Gemini 2.5 Pro | 58.4% | 1.2T | 1.25 | 10.00 | 5.63 |
| GPT-4o | 55.3% | 720B | 2.50 | 10.00 | 6.25 |
| Qwen3-Max | 55.0% | 685B | 0.78 | 3.90 | 2.34 |
| DeepSeek V4 Pro | 59.9% | 1.6T 实际开源参数 | 0.435 | 0.87 | 0.65 |
| GPT-5 Mini | 51.7% | 410B | 0.25 | 2.00 | 1.13 |
| GPT-5 Nano | 40.5% | 71B | 0.05 | 0.40 | 0.225 |
| Claude Haiku 4.5 | 39.9% | 65B | 1.00 | 5.00 | 3.00 |
这张表直接暴露出价格 proxy 的几个问题。
#10. 为什么价格不能得到“同样好”的结论?
#10.1 Pro 价格主要卖推理时计算,不一定卖更多事实容量
最典型的是 GPT-5.4 Pro:
- IKP 等效规模约 2.2T;
- 1:1 平均价格 105 美元 / 1M tokens;
- 但 GPT-5.5 的 IKP 等效规模约 8.8T,平均价格只有 17.5。
如果只看价格,会严重高估 GPT-5.4 Pro 的“事实容量”。原因很可能是 Pro 的价格包含更高推理预算、更强 agentic / reasoning 配置、更高服务等级,而不是更大的 parametric knowledge。
论文也观察到:Pro 变体相对 base 在 IKP 上提升通常很小。这说明 Pro 的价值主要不在“知道更多事实”。
#10.2 不同厂商定价策略差异太大
DeepSeek V4 Pro 是开源 / open-weight 1.6T MoE,但 OpenRouter 价格非常低:input 0.435,output 0.87 美元 / 1M tokens。按价格看它会显得很“小”,但按实际参数和 IKP 知识容量,它是 T 级模型。
Qwen3-Max 也类似,价格远低于同等 IKP 规模的 OpenAI / Anthropic 模型。
这说明价格混入了厂商商业策略、补贴、区域成本、开源生态竞争等因素。
#10.3 价格受服务栈效率影响,而 IKP 更接近权重内部状态
同样参数量的模型,服务成本可以因以下因素大幅变化:
- MoE active 参数小;
- KV cache 优化;
- speculative decoding;
- batch 利用率;
- 量化;
- provider 是否共享同一底层供应商;
- 上下文长度和缓存定价。
所以价格是“模型 × 系统 × 商业策略”的混合量;IKP 更像直接测“参数中压进了多少事实”。
#10.4 价格能做带噪声的先验,但不是可靠估计器
我的实验里,价格对 IKP 等效规模的 R² 约 0.58–0.61。这个相关并不低,说明价格不是完全无用。大模型通常更贵,强模型通常更贵,市场也会部分反映计算成本。
但它无法稳定区分:
- 价格贵是因为模型大,还是因为 reasoning mode 贵;
- 价格便宜是因为模型小,还是因为厂商补贴 / MoE 高效;
- output 贵是因为解码成本高,还是因为产品定位高端;
- 同厂商内部不同版本的价格策略是否连续。
因此更合理的做法是:
用 IKP 给出“事实容量等效规模”,用价格 / 吞吐 / 延迟给出“服务经济约束”,两者结合可以比单独任何一个更稳。
这也与论文 limitation 中的判断一致:IKP 的 90% 区间也有约 3× 宽度,未来如果结合 inference economics,可能收窄区间。
#11. 我对这篇论文的整体评价
我觉得这篇论文有三个强点。
第一,它抓住了一个被 benchmark 饱和掩盖的事实:模型能力不是一个单一维度。推理、指令跟随、工具使用可以通过训练和推理时计算被压缩;但事实记忆仍然是容量问题。
第二,它把“模型知道什么”变成了一个可操作的测量工具。尤其是 researcher probe 和 hallucination similarity,非常适合用来研究模型训练语料、模型谱系、蒸馏关系和版本迭代。
第三,它对科研传播有启发:如果未来基础模型成为人类知识的压缩索引,那么一个工作是否进入模型参数,不只取决于 citation,而取决于它是否在开放 Web 上形成高频、可归因、可复述的文本痕迹。
但它也有明显限制:
- 高端闭源模型估计是在 >1T 区间外推,开源标定点太少;
- 安全拒答会让模型被低估;
- probe 质量依赖长尾数据源,Wikidata / OpenAlex 都有噪声;
- 公开 probe 会有污染风险;不公开 probe 又影响可复现性;
- 不同训练数据分布可能让“知识容量等效参数”偏离真实物理参数。
所以我会把 IKP 的估计理解为:
不是“这个模型真实有多少参数”,而是“它在长尾事实记忆上,相当于一个多大参数量的开源模型”。
这个定义反而更有用。因为对使用者而言,真实参数量本来就不是最终目的;我们关心的是模型吸收了多少世界知识,以及这些知识在版本间如何迁移、增长、消失或被拒答策略隐藏。
#12. 对“价格推断规模”的结论
最终回答你的问题:可以用价格推断,但不能达到 IKP 同等质量的结论。
我的小实验显示,OpenRouter 当前 API 价格与 IKP 等效规模有中等相关,R² 大约 0.58–0.61;这说明价格确实有规模信号。但 IKP 在开源标定集上 R² = 0.917,明显更强。
价格更适合作为:
- 快速粗排:特别便宜的模型大概率不是最顶级 dense frontier;
- 异常检测:如果一个模型价格很低但 IKP 很高,说明它可能是高效 MoE、补贴、或开源竞争定价;
- 经济约束:结合吞吐、延迟、硬件成本,反推“服务这个模型至少需要什么系统”。
而 IKP 更适合作为:
- 黑盒事实容量估计;
- 模型是否经历大规模重训的信号;
- 长尾知识吸收边界测量;
- 研究者 / artifact 是否进入模型参数的观测工具。
如果要做下一步研究,我会建议把三类信号合并成一个 Bayesian estimator:
- IKP:测 parametric factual capacity;
- 价格 / 吞吐 / 延迟:测 serving economics;
- 行为指纹 / hallucination similarity:测谱系和蒸馏关系。
这样得到的不是单点参数估计,而是一个更可信的 posterior:这个模型可能是多大、是否 MoE、是否共享底座、是否主要靠推理时计算提升。
这可能比“闭源模型到底多少参数”这个问题本身更有价值。