#OpenMythos 与 Mythos 中央假设深度调研

#先说结论

OpenMythos 不是“Claude Mythos 的官方揭秘”,而是一个社区驱动的理论重建项目。

它最核心的价值,不在于证明 Anthropic 的模型一定就是这样,而在于它提出了一种非常完整的解释框架:

如果某个前沿模型真的表现出“深度推理、内部静默思考、按需加深计算、参数效率极高”的特征,那么一种合理解释是:它可能是某种 Recurrent-Depth Transformer / Looped Transformer,叠加稳定递归机制、latent reasoning、动态停止(ACT)和 Mixture-of-Experts(MoE)。

所以,Mythos 更适合被理解成:

  • 一种关于下一代推理模型的 架构假说
  • 一张把多条前沿研究线索统一起来的 研究地图
  • 一个可供实验和验证的 理论组合体

而不是 Anthropic 官方内部结构的确定答案。


#一、Mythos 到底是什么

从 OpenMythos 的 README 看,Mythos 不是一个已经公开发表、被 Anthropic 官方承认的模型名称,而是社区围绕“Claude 是否可能拥有某种特殊深度递归推理结构”所形成的猜想代号。

README 开头写得非常明确:

  • 它是 independent, community-driven theoretical reconstruction
  • 仅基于 publicly available research and speculation
  • 不代表 Anthropic 官方,也不和 Anthropic 有关联

因此,谈 Mythos,本质上是在谈:

一种被怀疑可能存在于 Claude 背后的“深度递归推理架构思想”。

OpenMythos 的任务,就是把这种思想尽可能落到一个可实现、可讨论、可训练的模型框架上。


#二、The Central Hypothesis:中央假设到底说了什么

中央假设可以压缩成一句话:

Claude Mythos 很可能不是传统的 fixed-depth Transformer,而是某种 Recurrent-Depth Transformer(RDT)/ Looped Transformer。

也就是说,模型并不一定依赖成百上千个“各不相同的层”来获得深度,而可能是:

  • 有一组共享权重的核心 block
  • 在单次 forward pass 内被循环执行多次
  • 循环越多,计算越深
  • 推理能力因此更多来自“动态深度”,而不是“静态层数”

这个思路和普通 Transformer 的差别非常大。

#普通 Transformer 的思路

input → layer1 → layer2 → layer3 → ... → layerN → output
  • 每层参数独立
  • 深度和参数量强绑定
  • 想要更深,通常就得更多参数

#Looped / Recurrent-Depth Transformer 的思路

Input
  ↓
[Prelude]
  ↓
[Recurrent Block] × T
  ↓
[Coda]
  ↓
Output
  • Prelude 和 Coda 正常跑一次
  • 中间 Recurrent Block 用同一组参数反复跑 T 轮
  • 模型“多想几步”是通过 recurrence 实现的

这就引出了 OpenMythos 最重要的命题:

模型的强大不一定主要来自更多参数,也可能来自更多动态计算深度。


#三、OpenMythos 给出的完整架构图景

README 和 open_mythos/main.py 显示,这个项目实现的并不是一个模糊概念,而是一套相当明确的结构。

#1. Prelude

Prelude 是一组普通 TransformerBlock,运行一次。

它负责:

  • 编码输入 token
  • 建立初始上下文表示
  • 产出后续循环使用的输入编码 e

从代码上看,Prelude 使用的是标准 transformer block,前馈层不是 MoE,而是普通 dense expert/SwiGLU 风格结构。

#2. Recurrent Block

这部分是整个 Mythos 假说的核心。

README 给出的递归更新形式是:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中:

  • h_t:第 t 轮循环后的隐藏状态
  • e:Prelude 得到的输入编码,并且会在每一轮循环持续注入
  • AB:学习到的注入参数
  • Transformer(h_t, e):标准 attention + FFN 的非线性处理

代码里这一块是 RecurrentBlock,而不是纯概念描述。它还进一步加入了:

  • loop_index_embedding
  • LoRAAdapter
  • LTIInjection
  • ACTHalting

也就是说,OpenMythos 并不是“单个 block 死循环”,而是一个带稳定控制、带每轮差异化、带自适应停止机制的递归模块。

#3. Coda

Coda 也是正常 transformer block,只跑一次。

它的作用更像是:

  • 把 recurrent block 最终得到的隐藏状态收束一下
  • 映射回最终 logits / 输出空间

所以整个结构不是从头到尾都循环,而是:

  • 前面正常编码一次
  • 中间重点循环思考
  • 最后正常收尾一次

这就是一个相当工整的“三段式推理架构”。


#四、为什么它强调 latent reasoning,而不是 chain-of-thought

OpenMythos 非常强调:

这不是显式 token-level CoT,而是 latent-space chain-of-thought

意思是:

  • 模型不是边想边吐出文字 token
  • 它是在隐藏状态里更新、传播、压缩和组合信息
  • 用户不会看到中间过程
  • 但功能上它相当于已经“想了很多步”

这件事为什么重要?

#显式 CoT 的限制

显式 CoT 的问题是:

  • 每吐一个 token,就相当于往某个推理路径上承诺一步
  • 中间过程会受语言离散化限制
  • 可能被“说得像在推理”与“真正推理”混淆
  • 速度和 token 成本都较高

#latent reasoning 的潜在优势

如果在隐藏空间里做多轮迭代:

  • 不需要过早把思路离散化成语言
  • 可以维持更细腻的中间状态
  • 理论上可以并行保留多个候选方向
  • 最终只在最后一步映射成输出 token

README 甚至提出一个更大胆的解释:

latent reasoning 可能更像“在隐藏空间里保留多个备选路径”,更接近某种软 BFS,而不是显式 CoT 那样每一步都必须做离散承诺。

这是一个非常有研究味道的观点。


#五、为什么 OpenMythos 认为 Mythos 会表现出“系统性泛化”

README 里一个很强的 claim 是:looped transformers 可能更容易实现 systematic generalization

也就是:

模型不只会做训练见过的组合,还能在没见过的新组合上突然做对。

它给出的叙述是三阶段:

  1. Memorization
  2. In-distribution generalization
  3. Systematic generalization

这种说法背后的直觉是:

  • recurrence 让模型不是简单地“从输入映射到输出”
  • 而是像在隐藏空间里反复施加某个组合规则
  • 因此它更容易把规则推广到更长链、更新颖的组合上

这和普通 fixed-depth transformer 的“规则组合能力有限”形成鲜明对比。

需要注意的是:

  • 这更像是一种架构能力解释
  • 不是 Anthropic Mythos 的直接证据
  • 但作为研究假说,它是很有启发性的

#六、Depth Extrapolation:为什么“多跑几轮”可能真的更会思考

OpenMythos 提到一个非常关键的能力:depth extrapolation

意思是:

  • 训练时模型可能只见过较浅循环深度
  • 推理时如果让它多循环几轮
  • 它就可能处理更长的 reasoning chain

例如:

  • 训练只见过 5-hop reasoning
  • 推理时跑更多 loop
  • 结果可以做 10-hop reasoning

这其实和 test-time scaling 的叙述高度一致。

OpenMythos 的核心判断是:

Mythos 的“强推理感”可能并不来自写出更长 CoT,而来自一次 forward 内部做了更多 latent loops。

也就是说,真正的“多想几步”,不是 prompt 里写出来,而是架构里多跑几轮。

这非常值得注意,因为它把推理增强从“输出侧工程”转到了“内部计算结构”。


#七、稳定性:这套假说最值得认真看的地方

如果只从研究角度看,我认为 OpenMythos 最值得认真对待的,不是它对 Mythos 名字的猜测,而是它对递归稳定性问题的重视。

Looped transformer 的最大问题从来不是“想法听起来酷”,而是:

训练会不会直接炸掉?

README 提到两个典型失败模式:

  • residual explosion
  • loss spikes

为了解释如何让递归稳定,它引入了一整套 dynamical systems 视角。

#LTI 视角

它把线性部分抽象成:

h_{t+1} = A·h_t + B·e

然后指出:

  • ρ(A) < 1 → 稳定
  • ρ(A) ≥ 1 → 发散

这就把“模型会不会炸”变成了一个很清晰的控制论问题。

#代码实现上的对应

main.py 里,OpenMythos 明确实现了 LTIInjection。文档里也写了:

  • A 参数化为负对角矩阵
  • 再通过离散化得到 A_discrete
  • 从构造上保证 ρ(A) < 1

这条路线和 README 中引用的 Parcae 论文是对齐的。

所以这里不是“只会说概念”,而是 README → docs → code 三层是一致的。

这一点很重要,因为它意味着:

OpenMythos 的作者至少知道,递归模型最难的不是提出 recurrence,而是保证 recurrence 可训练、可控、不会发散。


#八、ACT / Adaptive Halting:为什么不可能所有输入都跑固定最大循环数

OpenMythos 非常强调“更多 loop 不一定总更好”。

超过某个点,模型会出现:

  • 过度思考
  • 隐状态漂移
  • 已经接近答案却继续偏离

这就是它说的 overthinking

所以它认为,如果 Mythos 真是 looped model,那么几乎一定需要某种:

Adaptive Computation Time (ACT) 或 learned halting mechanism

#代码里的证据

MythosConfig 里,有:

act_threshold: float = 0.99

在内部模块说明里也有 ACTHalting

  • 每个 position 学一个 halting probability
  • 累积概率超过阈值就停
  • 简单 token 提前退出
  • 难 token 继续循环

这意味着 OpenMythos 不只是“可以固定循环 T 次”,而是确实在试图实现一种:

  • 动态深度
  • 难样本多算,简单样本少算
  • 同一 batch 内部也能差异化计算

这和 Mythos 想解释的“按需思考”非常吻合。


#九、Loop Index Embedding:共享权重如何在不同 loop 干不同的事

这是 OpenMythos 里我个人很喜欢的一个点。

问题是:

如果 recurrent block 每一轮都用同样的权重,为什么第 1 轮和第 10 轮不会完全干同样的事?

README 的回答是:

给每一轮循环一个 loop index embedding,类似 sequence position 的 RoPE,但作用在“深度维度”上。

#代码里对应的模块

loop_index_embedding(...)

它会:

  • 根据当前 loop_t 生成一个 sinusoidal signal
  • 注入到 hidden state 的前若干个通道里

这意味着:

  • 共享权重仍然共享
  • 但每个循环步知道自己在“第几轮”
  • 于是模型可以学会:

- 前几轮做粗匹配

- 中间几轮做组合推理

- 后几轮做 refinement / verification

这个设计极其优雅,因为它在几乎不增加参数的前提下,大幅增加了 recurrent block 的表达力。


#十、MoE:OpenMythos 如何解释“广度”问题

looping 能解释“深度”,但不能解释“广度”。

一个真正强的模型还得同时会:

  • 代码
  • 数学
  • 文学
  • 科学
  • 法律
  • 通用知识

OpenMythos 认为这部分更像需要 Mixture-of-Experts(MoE) 来承担。

所以它提出了一个二元解释:

looping gives depth; MoE gives breadth

#代码里对应的实现

OpenMythos 不是只在 README 里写 MoE,它在代码里真的实现了:

  • MoEFFN
  • routed experts
  • shared experts
  • top-k expert routing
  • router bias / load balancing

这意味着它不是“普通 transformer + 一个 loop”,而是:

  • Recurrent block 内部使用的是带稀疏路由的 FFN
  • 不同 token、不同 loop 可能走不同专家组合

这就非常像一种“在不同深度上走不同子网络”的结构。

从表现力角度看,这比纯共享 dense FFN 强得多。


#十一、MLA / GQA:README 里说的想法,代码里到底有没有落下来

有,而且这是 OpenMythos 代码完成度比较高的地方。

#它支持两种注意力

  • gqa
  • mla

MythosConfig 中:

attn_type: str = "mla"

默认直接就是 MLA。

#为什么这件事重要

如果模型要做“高循环深度 + 长上下文”,KV cache 是非常大的瓶颈。

OpenMythos 文档里明确解释:

  • GQA:通过减少 KV heads 降低 cache
  • MLA:通过低秩 latent 压缩 KV cache,显著减小内存

从 docs 来看,它甚至把 MLA 说成可带来 10–20× smaller cache 的路线。

这说明 OpenMythos 不只是关注“会不会想”,也在关注:

这种想法在工程上是否可能撑住长 context 和高循环深度

这一点很现实,也让整个理论框架显得更完整。


#十二、LoRA per depth:它不是完全重复自己

另一个值得注意的实现是 LoRAAdapter

它的思路是:

  • 大权重共享
  • 但每个循环步叠加一个小的 depth-wise low-rank adaptation

这样做的好处是:

  • 仍然保留参数效率
  • 但每个深度可以有轻微不同的行为模式

README 中把这件事理解为:

Mythos 未必是“完全一样的 block 死循环”,而可能是在共享主干上,每个深度有一点小偏移。

这使得“共享权重”和“深度特化”之间形成一个折中。

从研究设计看,这很聪明。


#十三、Scaling Law 视角:它在说 Mythos 可能不是“看上去那么大”

OpenMythos 很看重 looped model 的 scaling law,特别是 Parcae 那条线。

核心意思是:

  • 最优训练不是简单“参数最大化”
  • 而是要在 参数 / token / recurrence 之间共同平衡
  • 推理时增加 loop 也会提升质量,但收益是饱和递减的

这会带来一个很强的含义:

Mythos 的强大,也许有很大一部分来自“动态深度”,而不是静态参数量。

于是一个表面上“像几百 B 甚至 T 级能力”的系统,未必真是靠线性堆叠参数做到的,而可能是:

  • 参数很大,但不需要无限大
  • 通过 recurrence 把单次计算深度做出来
  • 再通过 MoE 提供多领域覆盖

这就是 OpenMythos 最吸引人的工程想象之一。


#十四、Memorization vs Reasoning:它为什么能解释一种“很会想但不一定很会背”的风格

README 还有一条我觉得很有价值的判断:

looped model 结构上可能天然更偏 reasoning,而不那么偏 memorization。

也就是说:

  • 它更擅长做结构组合、迭代传播和问题分解
  • 但未必最擅长稳定地存死知识

OpenMythos 用这个来解释 Mythos 风格中的一个可能现象:

  • 对新问题、复杂组合问题特别强
  • 但在某些 factual recall 任务上,未必显得像一个“超大知识库”那样稳定

这个解释是否真实,还需要实证,但从架构偏置的角度看,它是有逻辑的。


#十五、可信度分层:哪些东西更靠谱,哪些更像大胆推断

如果要认真调研,这一步必须做。

#A. 比较靠谱的部分

这些部分至少在公开研究中是强成立的:

  1. Looped / recurrent-depth transformer 是真实研究方向
  2. Latent reasoning 是很活跃的研究方向
  3. ACT / halting 机制有坚实文献基础
  4. 稳定递归确实需要动力系统约束
  5. MoE + dynamic compute 确实是前沿模型架构中的关键套路

#B. 中等可信的部分

这些属于“逻辑上很顺,但不等于 Claude 一定这样做”:

  1. Mythos 可能采用 RDT / LT
  2. Mythos 可能有 adaptive halting
  3. Mythos 可能把强推理更多建立在 latent recurrence 上
  4. Mythos 可能通过 MoE 提供 breadth

#C. 更 speculative 的部分

这些更多是漂亮的推断,而不是被验证的事实:

  1. Mythos 一定就是 README 这套组合
  2. 它一定有 loop-index RoPE 风格机制
  3. 它一定采用 OpenMythos 所描绘的 exact module composition
  4. “像 BFS 一样探索多个路径”这一解释是唯一正确解释

所以我会说:

OpenMythos 的价值不在“它已经证明了 Mythos 是这样”,而在“它给出了一套非常值得验证的候选架构解释”。


#十六、和一般 CoT 模型、普通 Transformer、o1/R1 风格模型有什么差别

#1. 和普通 Transformer 的差别

普通 transformer:

  • 深度固定
  • 参数和深度绑定
  • 推理增强更多靠 prompt / output-side CoT

Mythos 假说:

  • 深度可动态调整
  • 循环深度不等于参数深度
  • 推理更多发生在 latent recurrence 里

#2. 和普通显式 CoT 的差别

显式 CoT:

  • 用户能看到中间过程
  • 每一步都离散成 token
  • 速度慢、token 成本高

latent recurrence:

  • 中间过程不可见
  • 推理在隐藏空间进行
  • 更可能保留并行候选状态

#3. 和“纯 RL 强化出来的推理模型”的差别

很多推理模型现在给人的感觉是:

  • 主要靠更好的 CoT 习惯
  • 更长的输出推理链
  • 通过 RL 学会更稳定的 reasoning trajectory

OpenMythos 的叙事则是:

  • 不只是“更会写推理过程”
  • 而是“底层就更擅长内部多轮迭代思考”

这个差异非常本质。


#十七、从代码看,OpenMythos 到底是“README 工程”还是“真做了点东西”

我的判断是:

它不是纸上谈兵。

main.pydocs/open_mythos.md 看,它至少真做了这些:

  • MythosConfig
  • Prelude / Recurrent / Coda 三段式
  • GQA / MLA 双注意力
  • MoE FFN
  • loop-index embedding
  • LoRA depth adaptation
  • ACT halting
  • LTI-stable injection
  • generate / KV cache 机制
  • variant configs(1B 到 1T)

当然,这不意味着它已经证明“这样训练出来就会是 Mythos 那种能力”。

但它已经不是纯 README 神话,而是:

一个把 README 假说相当认真地落到了代码对象结构中的实验性框架。


#十八、我对 OpenMythos 的总体判断

#作为“事实主张”

它不能证明 Claude Mythos 就是这种结构。

#作为“理论重建”

它质量很高,因为它把多条真实研究路线拼成了一套能自洽的解释框架。

#作为“研究路线图”

它非常值得关注,因为它精准指向了几个未来极关键的问题:

  1. 推理深度能否从参数中解耦?
  2. latent reasoning 是否会替代显式 CoT?
  3. recurrence 如何稳定训练?
  4. dynamic halting 如何成为 test-time scaling 的核心?
  5. depth 与 breadth 是否会分别由 recurrence 和 MoE 承担?

如果你关心下一代强推理模型,OpenMythos 的价值,远大于它这个仓库本身。


#十九、一句话总结 Mythos

如果只用一句话概括 Mythos,我会这么说:

Mythos 可以被理解成一种“会在脑内默默反复思考很多轮”的模型:它不是靠把中间推理写出来,而是在共享核心模块上做多轮隐藏空间迭代,用稳定递归、动态停止和可能的 MoE 路由,把深度推理和广度能力结合起来。

这就是 OpenMythos 想表达的核心。


#二十、我的最终结论

我对这份材料的最终判断是:

  1. OpenMythos 不能当作 Claude 内幕资料读。
  2. 但它是一份非常有研究价值的架构猜想文档。
  3. 它最有价值的地方,不是 Mythos 这个名字,而是把 looped transformer、latent reasoning、稳定递归、ACT 和 MoE 拼成了一套统一叙事。
  4. 如果未来更强的推理模型真的出现“更少参数却更会想”的特征,那么 OpenMythos 提供的这条解释路线大概率会越来越重要。

#附:最值得继续深挖的方向

如果后续继续研究,我认为最值得继续追的不是“Claude 到底是不是这样”,而是:

  • Parcae 的稳定 loop scaling law
  • latent reasoning 与显式 CoT 的能力边界
  • ACT / halting 在大模型中的真实可扩展性
  • loop-index embedding 是否真能显著提升 recurrent expressiveness
  • MoE 与 recurrence 在同一模型中如何协同训练

这些问题,比 Mythos 这个名字本身更重要。

#链接