论文精读 2026-04-20 ★★★★★ agent reasoning world-model recurrent-depth latent-reasoning transformer

#OpenMythos 与 Mythos 中央假设深度调研

#先说结论

OpenMythos 不是“Claude Mythos 的官方揭秘”，而是一个社区驱动的理论重建项目。

它最核心的价值，不在于证明 Anthropic 的模型一定就是这样，而在于它提出了一种非常完整的解释框架：

如果某个前沿模型真的表现出“深度推理、内部静默思考、按需加深计算、参数效率极高”的特征，那么一种合理解释是：它可能是某种 Recurrent-Depth Transformer / Looped Transformer，叠加稳定递归机制、latent reasoning、动态停止（ACT）和 Mixture-of-Experts（MoE）。

所以，Mythos 更适合被理解成：

一种关于下一代推理模型的 架构假说
一张把多条前沿研究线索统一起来的 研究地图
一个可供实验和验证的 理论组合体

而不是 Anthropic 官方内部结构的确定答案。

#一、Mythos 到底是什么

从 OpenMythos 的 README 看，Mythos 不是一个已经公开发表、被 Anthropic 官方承认的模型名称，而是社区围绕“Claude 是否可能拥有某种特殊深度递归推理结构”所形成的猜想代号。

README 开头写得非常明确：

它是 independent, community-driven theoretical reconstruction
仅基于 publicly available research and speculation
不代表 Anthropic 官方，也不和 Anthropic 有关联

因此，谈 Mythos，本质上是在谈：

一种被怀疑可能存在于 Claude 背后的“深度递归推理架构思想”。

OpenMythos 的任务，就是把这种思想尽可能落到一个可实现、可讨论、可训练的模型框架上。

#二、The Central Hypothesis：中央假设到底说了什么

中央假设可以压缩成一句话：

Claude Mythos 很可能不是传统的 fixed-depth Transformer，而是某种 Recurrent-Depth Transformer（RDT）/ Looped Transformer。

也就是说，模型并不一定依赖成百上千个“各不相同的层”来获得深度，而可能是：

有一组共享权重的核心 block
在单次 forward pass 内被循环执行多次
循环越多，计算越深
推理能力因此更多来自“动态深度”，而不是“静态层数”

这个思路和普通 Transformer 的差别非常大。

#普通 Transformer 的思路

input → layer1 → layer2 → layer3 → ... → layerN → output

每层参数独立
深度和参数量强绑定
想要更深，通常就得更多参数

#Looped / Recurrent-Depth Transformer 的思路

Input
  ↓
[Prelude]
  ↓
[Recurrent Block] × T
  ↓
[Coda]
  ↓
Output

Prelude 和 Coda 正常跑一次
中间 Recurrent Block 用同一组参数反复跑 T 轮
模型“多想几步”是通过 recurrence 实现的

这就引出了 OpenMythos 最重要的命题：

模型的强大不一定主要来自更多参数，也可能来自更多动态计算深度。

#三、OpenMythos 给出的完整架构图景

README 和 open_mythos/main.py 显示，这个项目实现的并不是一个模糊概念，而是一套相当明确的结构。

#1. Prelude

Prelude 是一组普通 TransformerBlock，运行一次。

它负责：

编码输入 token
建立初始上下文表示
产出后续循环使用的输入编码 e

从代码上看，Prelude 使用的是标准 transformer block，前馈层不是 MoE，而是普通 dense expert/SwiGLU 风格结构。

#2. Recurrent Block

这部分是整个 Mythos 假说的核心。

README 给出的递归更新形式是：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中：

h_t：第 t 轮循环后的隐藏状态
e：Prelude 得到的输入编码，并且会在每一轮循环持续注入
A、B：学习到的注入参数
Transformer(h_t, e)：标准 attention + FFN 的非线性处理

代码里这一块是 RecurrentBlock，而不是纯概念描述。它还进一步加入了：

loop_index_embedding
LoRAAdapter
LTIInjection
ACTHalting

也就是说，OpenMythos 并不是“单个 block 死循环”，而是一个带稳定控制、带每轮差异化、带自适应停止机制的递归模块。

#3. Coda

Coda 也是正常 transformer block，只跑一次。

它的作用更像是：

把 recurrent block 最终得到的隐藏状态收束一下
映射回最终 logits / 输出空间

所以整个结构不是从头到尾都循环，而是：

前面正常编码一次
中间重点循环思考
最后正常收尾一次

这就是一个相当工整的“三段式推理架构”。

#四、为什么它强调 latent reasoning，而不是 chain-of-thought

OpenMythos 非常强调：

这不是显式 token-level CoT，而是 latent-space chain-of-thought。

意思是：

模型不是边想边吐出文字 token
它是在隐藏状态里更新、传播、压缩和组合信息
用户不会看到中间过程
但功能上它相当于已经“想了很多步”

这件事为什么重要？

#显式 CoT 的限制

显式 CoT 的问题是：

每吐一个 token，就相当于往某个推理路径上承诺一步
中间过程会受语言离散化限制
可能被“说得像在推理”与“真正推理”混淆
速度和 token 成本都较高

#latent reasoning 的潜在优势

如果在隐藏空间里做多轮迭代：

不需要过早把思路离散化成语言
可以维持更细腻的中间状态
理论上可以并行保留多个候选方向
最终只在最后一步映射成输出 token

README 甚至提出一个更大胆的解释：

latent reasoning 可能更像“在隐藏空间里保留多个备选路径”，更接近某种软 BFS，而不是显式 CoT 那样每一步都必须做离散承诺。

这是一个非常有研究味道的观点。

#五、为什么 OpenMythos 认为 Mythos 会表现出“系统性泛化”

README 里一个很强的 claim 是：looped transformers 可能更容易实现 systematic generalization。

也就是：

模型不只会做训练见过的组合，还能在没见过的新组合上突然做对。

它给出的叙述是三阶段：

Memorization
In-distribution generalization
Systematic generalization

这种说法背后的直觉是：

recurrence 让模型不是简单地“从输入映射到输出”
而是像在隐藏空间里反复施加某个组合规则
因此它更容易把规则推广到更长链、更新颖的组合上

这和普通 fixed-depth transformer 的“规则组合能力有限”形成鲜明对比。

需要注意的是：

这更像是一种架构能力解释
不是 Anthropic Mythos 的直接证据
但作为研究假说，它是很有启发性的

#六、Depth Extrapolation：为什么“多跑几轮”可能真的更会思考

OpenMythos 提到一个非常关键的能力：depth extrapolation。

意思是：

训练时模型可能只见过较浅循环深度
推理时如果让它多循环几轮
它就可能处理更长的 reasoning chain

例如：

训练只见过 5-hop reasoning
推理时跑更多 loop
结果可以做 10-hop reasoning

这其实和 test-time scaling 的叙述高度一致。

OpenMythos 的核心判断是：

Mythos 的“强推理感”可能并不来自写出更长 CoT，而来自一次 forward 内部做了更多 latent loops。

也就是说，真正的“多想几步”，不是 prompt 里写出来，而是架构里多跑几轮。

这非常值得注意，因为它把推理增强从“输出侧工程”转到了“内部计算结构”。

#七、稳定性：这套假说最值得认真看的地方

如果只从研究角度看，我认为 OpenMythos 最值得认真对待的，不是它对 Mythos 名字的猜测，而是它对递归稳定性问题的重视。

Looped transformer 的最大问题从来不是“想法听起来酷”，而是：

训练会不会直接炸掉？

README 提到两个典型失败模式：

residual explosion
loss spikes

为了解释如何让递归稳定，它引入了一整套 dynamical systems 视角。

#LTI 视角

它把线性部分抽象成：

h_{t+1} = A·h_t + B·e

然后指出：

ρ(A) < 1 → 稳定
ρ(A) ≥ 1 → 发散

这就把“模型会不会炸”变成了一个很清晰的控制论问题。

#代码实现上的对应

在 main.py 里，OpenMythos 明确实现了 LTIInjection。文档里也写了：

把 A 参数化为负对角矩阵
再通过离散化得到 A_discrete
从构造上保证 ρ(A) < 1

这条路线和 README 中引用的 Parcae 论文是对齐的。

所以这里不是“只会说概念”，而是 README → docs → code 三层是一致的。

这一点很重要，因为它意味着：

OpenMythos 的作者至少知道，递归模型最难的不是提出 recurrence，而是保证 recurrence 可训练、可控、不会发散。

#八、ACT / Adaptive Halting：为什么不可能所有输入都跑固定最大循环数

OpenMythos 非常强调“更多 loop 不一定总更好”。

超过某个点，模型会出现：

过度思考
隐状态漂移
已经接近答案却继续偏离

这就是它说的 overthinking。

所以它认为，如果 Mythos 真是 looped model，那么几乎一定需要某种：

Adaptive Computation Time (ACT) 或 learned halting mechanism

#代码里的证据

在 MythosConfig 里，有：

act_threshold: float = 0.99

在内部模块说明里也有 ACTHalting：

每个 position 学一个 halting probability
累积概率超过阈值就停
简单 token 提前退出
难 token 继续循环

这意味着 OpenMythos 不只是“可以固定循环 T 次”，而是确实在试图实现一种：

动态深度
难样本多算，简单样本少算
同一 batch 内部也能差异化计算

这和 Mythos 想解释的“按需思考”非常吻合。

#九、Loop Index Embedding：共享权重如何在不同 loop 干不同的事

这是 OpenMythos 里我个人很喜欢的一个点。

问题是：

如果 recurrent block 每一轮都用同样的权重，为什么第 1 轮和第 10 轮不会完全干同样的事？

README 的回答是：

给每一轮循环一个 loop index embedding，类似 sequence position 的 RoPE，但作用在“深度维度”上。

#代码里对应的模块

loop_index_embedding(...)

它会：

根据当前 loop_t 生成一个 sinusoidal signal
注入到 hidden state 的前若干个通道里

这意味着：

共享权重仍然共享
但每个循环步知道自己在“第几轮”
于是模型可以学会：

- 前几轮做粗匹配

- 中间几轮做组合推理

- 后几轮做 refinement / verification

这个设计极其优雅，因为它在几乎不增加参数的前提下，大幅增加了 recurrent block 的表达力。

#十、MoE：OpenMythos 如何解释“广度”问题

looping 能解释“深度”，但不能解释“广度”。

一个真正强的模型还得同时会：

代码
数学
文学
科学
法律
通用知识

OpenMythos 认为这部分更像需要 Mixture-of-Experts（MoE） 来承担。

所以它提出了一个二元解释：

looping gives depth; MoE gives breadth

#代码里对应的实现

OpenMythos 不是只在 README 里写 MoE，它在代码里真的实现了：

MoEFFN
routed experts
shared experts
top-k expert routing
router bias / load balancing

这意味着它不是“普通 transformer + 一个 loop”，而是：

Recurrent block 内部使用的是带稀疏路由的 FFN
不同 token、不同 loop 可能走不同专家组合

这就非常像一种“在不同深度上走不同子网络”的结构。

从表现力角度看，这比纯共享 dense FFN 强得多。

#十一、MLA / GQA：README 里说的想法，代码里到底有没有落下来

有，而且这是 OpenMythos 代码完成度比较高的地方。

#它支持两种注意力

gqa
mla

在 MythosConfig 中：

attn_type: str = "mla"

默认直接就是 MLA。

#为什么这件事重要

如果模型要做“高循环深度 + 长上下文”，KV cache 是非常大的瓶颈。

OpenMythos 文档里明确解释：

GQA：通过减少 KV heads 降低 cache
MLA：通过低秩 latent 压缩 KV cache，显著减小内存

从 docs 来看，它甚至把 MLA 说成可带来 10–20× smaller cache 的路线。

这说明 OpenMythos 不只是关注“会不会想”，也在关注：

这种想法在工程上是否可能撑住长 context 和高循环深度

这一点很现实，也让整个理论框架显得更完整。

#十二、LoRA per depth：它不是完全重复自己

另一个值得注意的实现是 LoRAAdapter。

它的思路是：

大权重共享
但每个循环步叠加一个小的 depth-wise low-rank adaptation

这样做的好处是：

仍然保留参数效率
但每个深度可以有轻微不同的行为模式

README 中把这件事理解为：

Mythos 未必是“完全一样的 block 死循环”，而可能是在共享主干上，每个深度有一点小偏移。

这使得“共享权重”和“深度特化”之间形成一个折中。

从研究设计看，这很聪明。

#十三、Scaling Law 视角：它在说 Mythos 可能不是“看上去那么大”

OpenMythos 很看重 looped model 的 scaling law，特别是 Parcae 那条线。

核心意思是：

最优训练不是简单“参数最大化”
而是要在 参数 / token / recurrence 之间共同平衡
推理时增加 loop 也会提升质量，但收益是饱和递减的

这会带来一个很强的含义：

Mythos 的强大，也许有很大一部分来自“动态深度”，而不是静态参数量。

于是一个表面上“像几百 B 甚至 T 级能力”的系统，未必真是靠线性堆叠参数做到的，而可能是：

参数很大，但不需要无限大
通过 recurrence 把单次计算深度做出来
再通过 MoE 提供多领域覆盖

这就是 OpenMythos 最吸引人的工程想象之一。

#十四、Memorization vs Reasoning：它为什么能解释一种“很会想但不一定很会背”的风格

README 还有一条我觉得很有价值的判断：

looped model 结构上可能天然更偏 reasoning，而不那么偏 memorization。

也就是说：

它更擅长做结构组合、迭代传播和问题分解
但未必最擅长稳定地存死知识

OpenMythos 用这个来解释 Mythos 风格中的一个可能现象：

对新问题、复杂组合问题特别强
但在某些 factual recall 任务上，未必显得像一个“超大知识库”那样稳定

这个解释是否真实，还需要实证，但从架构偏置的角度看，它是有逻辑的。

#十五、可信度分层：哪些东西更靠谱，哪些更像大胆推断

如果要认真调研，这一步必须做。

#A. 比较靠谱的部分

这些部分至少在公开研究中是强成立的：

Looped / recurrent-depth transformer 是真实研究方向
Latent reasoning 是很活跃的研究方向
ACT / halting 机制有坚实文献基础
稳定递归确实需要动力系统约束
MoE + dynamic compute 确实是前沿模型架构中的关键套路

#B. 中等可信的部分

这些属于“逻辑上很顺，但不等于 Claude 一定这样做”：

Mythos 可能采用 RDT / LT
Mythos 可能有 adaptive halting
Mythos 可能把强推理更多建立在 latent recurrence 上
Mythos 可能通过 MoE 提供 breadth

#C. 更 speculative 的部分

这些更多是漂亮的推断，而不是被验证的事实：

Mythos 一定就是 README 这套组合
它一定有 loop-index RoPE 风格机制
它一定采用 OpenMythos 所描绘的 exact module composition
“像 BFS 一样探索多个路径”这一解释是唯一正确解释

所以我会说：

OpenMythos 的价值不在“它已经证明了 Mythos 是这样”，而在“它给出了一套非常值得验证的候选架构解释”。

#十六、和一般 CoT 模型、普通 Transformer、o1/R1 风格模型有什么差别

#1. 和普通 Transformer 的差别

普通 transformer：

深度固定
参数和深度绑定
推理增强更多靠 prompt / output-side CoT

Mythos 假说：

深度可动态调整
循环深度不等于参数深度
推理更多发生在 latent recurrence 里

#2. 和普通显式 CoT 的差别

显式 CoT：

用户能看到中间过程
每一步都离散成 token
速度慢、token 成本高

latent recurrence：

中间过程不可见
推理在隐藏空间进行
更可能保留并行候选状态

#3. 和“纯 RL 强化出来的推理模型”的差别

很多推理模型现在给人的感觉是：

主要靠更好的 CoT 习惯
更长的输出推理链
通过 RL 学会更稳定的 reasoning trajectory

OpenMythos 的叙事则是：

不只是“更会写推理过程”
而是“底层就更擅长内部多轮迭代思考”

这个差异非常本质。

#十七、从代码看，OpenMythos 到底是“README 工程”还是“真做了点东西”

我的判断是：

它不是纸上谈兵。

从 main.py 和 docs/open_mythos.md 看，它至少真做了这些：

MythosConfig
Prelude / Recurrent / Coda 三段式
GQA / MLA 双注意力
MoE FFN
loop-index embedding
LoRA depth adaptation
ACT halting
LTI-stable injection
generate / KV cache 机制
variant configs（1B 到 1T）

当然，这不意味着它已经证明“这样训练出来就会是 Mythos 那种能力”。

但它已经不是纯 README 神话，而是：

一个把 README 假说相当认真地落到了代码对象结构中的实验性框架。

#十八、我对 OpenMythos 的总体判断

#作为“事实主张”

它不能证明 Claude Mythos 就是这种结构。

#作为“理论重建”

它质量很高，因为它把多条真实研究路线拼成了一套能自洽的解释框架。

#作为“研究路线图”

它非常值得关注，因为它精准指向了几个未来极关键的问题：

推理深度能否从参数中解耦？
latent reasoning 是否会替代显式 CoT？
recurrence 如何稳定训练？
dynamic halting 如何成为 test-time scaling 的核心？
depth 与 breadth 是否会分别由 recurrence 和 MoE 承担？

如果你关心下一代强推理模型，OpenMythos 的价值，远大于它这个仓库本身。

#十九、一句话总结 Mythos

如果只用一句话概括 Mythos，我会这么说：

Mythos 可以被理解成一种“会在脑内默默反复思考很多轮”的模型：它不是靠把中间推理写出来，而是在共享核心模块上做多轮隐藏空间迭代，用稳定递归、动态停止和可能的 MoE 路由，把深度推理和广度能力结合起来。

这就是 OpenMythos 想表达的核心。

#二十、我的最终结论

我对这份材料的最终判断是：

OpenMythos 不能当作 Claude 内幕资料读。
但它是一份非常有研究价值的架构猜想文档。
它最有价值的地方，不是 Mythos 这个名字，而是把 looped transformer、latent reasoning、稳定递归、ACT 和 MoE 拼成了一套统一叙事。
如果未来更强的推理模型真的出现“更少参数却更会想”的特征，那么 OpenMythos 提供的这条解释路线大概率会越来越重要。

#附：最值得继续深挖的方向

如果后续继续研究，我认为最值得继续追的不是“Claude 到底是不是这样”，而是：

Parcae 的稳定 loop scaling law
latent reasoning 与显式 CoT 的能力边界
ACT / halting 在大模型中的真实可扩展性
loop-index embedding 是否真能显著提升 recurrent expressiveness
MoE 与 recurrence 在同一模型中如何协同训练

这些问题，比 Mythos 这个名字本身更重要。

#链接

GitHub: https://github.com/kyegomez/OpenMythos
README 中央假设：https://github.com/kyegomez/OpenMythos#the-central-hypothesis
代码：open_mythos/main.py
API 文档：docs/open_mythos.md