#OpenMythos 与 Mythos 中央假设深度调研
#先说结论
OpenMythos 不是“Claude Mythos 的官方揭秘”,而是一个社区驱动的理论重建项目。
它最核心的价值,不在于证明 Anthropic 的模型一定就是这样,而在于它提出了一种非常完整的解释框架:
如果某个前沿模型真的表现出“深度推理、内部静默思考、按需加深计算、参数效率极高”的特征,那么一种合理解释是:它可能是某种 Recurrent-Depth Transformer / Looped Transformer,叠加稳定递归机制、latent reasoning、动态停止(ACT)和 Mixture-of-Experts(MoE)。
所以,Mythos 更适合被理解成:
- 一种关于下一代推理模型的 架构假说
- 一张把多条前沿研究线索统一起来的 研究地图
- 一个可供实验和验证的 理论组合体
而不是 Anthropic 官方内部结构的确定答案。
#一、Mythos 到底是什么
从 OpenMythos 的 README 看,Mythos 不是一个已经公开发表、被 Anthropic 官方承认的模型名称,而是社区围绕“Claude 是否可能拥有某种特殊深度递归推理结构”所形成的猜想代号。
README 开头写得非常明确:
- 它是 independent, community-driven theoretical reconstruction
- 仅基于 publicly available research and speculation
- 不代表 Anthropic 官方,也不和 Anthropic 有关联
因此,谈 Mythos,本质上是在谈:
一种被怀疑可能存在于 Claude 背后的“深度递归推理架构思想”。
OpenMythos 的任务,就是把这种思想尽可能落到一个可实现、可讨论、可训练的模型框架上。
#二、The Central Hypothesis:中央假设到底说了什么
中央假设可以压缩成一句话:
Claude Mythos 很可能不是传统的 fixed-depth Transformer,而是某种 Recurrent-Depth Transformer(RDT)/ Looped Transformer。
也就是说,模型并不一定依赖成百上千个“各不相同的层”来获得深度,而可能是:
- 有一组共享权重的核心 block
- 在单次 forward pass 内被循环执行多次
- 循环越多,计算越深
- 推理能力因此更多来自“动态深度”,而不是“静态层数”
这个思路和普通 Transformer 的差别非常大。
#普通 Transformer 的思路
input → layer1 → layer2 → layer3 → ... → layerN → output
- 每层参数独立
- 深度和参数量强绑定
- 想要更深,通常就得更多参数
#Looped / Recurrent-Depth Transformer 的思路
Input
↓
[Prelude]
↓
[Recurrent Block] × T
↓
[Coda]
↓
Output
- Prelude 和 Coda 正常跑一次
- 中间 Recurrent Block 用同一组参数反复跑 T 轮
- 模型“多想几步”是通过 recurrence 实现的
这就引出了 OpenMythos 最重要的命题:
模型的强大不一定主要来自更多参数,也可能来自更多动态计算深度。
#三、OpenMythos 给出的完整架构图景
README 和 open_mythos/main.py 显示,这个项目实现的并不是一个模糊概念,而是一套相当明确的结构。
#1. Prelude
Prelude 是一组普通 TransformerBlock,运行一次。
它负责:
- 编码输入 token
- 建立初始上下文表示
- 产出后续循环使用的输入编码
e
从代码上看,Prelude 使用的是标准 transformer block,前馈层不是 MoE,而是普通 dense expert/SwiGLU 风格结构。
#2. Recurrent Block
这部分是整个 Mythos 假说的核心。
README 给出的递归更新形式是:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
其中:
h_t:第 t 轮循环后的隐藏状态e:Prelude 得到的输入编码,并且会在每一轮循环持续注入A、B:学习到的注入参数Transformer(h_t, e):标准 attention + FFN 的非线性处理
代码里这一块是 RecurrentBlock,而不是纯概念描述。它还进一步加入了:
loop_index_embeddingLoRAAdapterLTIInjectionACTHalting
也就是说,OpenMythos 并不是“单个 block 死循环”,而是一个带稳定控制、带每轮差异化、带自适应停止机制的递归模块。
#3. Coda
Coda 也是正常 transformer block,只跑一次。
它的作用更像是:
- 把 recurrent block 最终得到的隐藏状态收束一下
- 映射回最终 logits / 输出空间
所以整个结构不是从头到尾都循环,而是:
- 前面正常编码一次
- 中间重点循环思考
- 最后正常收尾一次
这就是一个相当工整的“三段式推理架构”。
#四、为什么它强调 latent reasoning,而不是 chain-of-thought
OpenMythos 非常强调:
这不是显式 token-level CoT,而是 latent-space chain-of-thought。
意思是:
- 模型不是边想边吐出文字 token
- 它是在隐藏状态里更新、传播、压缩和组合信息
- 用户不会看到中间过程
- 但功能上它相当于已经“想了很多步”
这件事为什么重要?
#显式 CoT 的限制
显式 CoT 的问题是:
- 每吐一个 token,就相当于往某个推理路径上承诺一步
- 中间过程会受语言离散化限制
- 可能被“说得像在推理”与“真正推理”混淆
- 速度和 token 成本都较高
#latent reasoning 的潜在优势
如果在隐藏空间里做多轮迭代:
- 不需要过早把思路离散化成语言
- 可以维持更细腻的中间状态
- 理论上可以并行保留多个候选方向
- 最终只在最后一步映射成输出 token
README 甚至提出一个更大胆的解释:
latent reasoning 可能更像“在隐藏空间里保留多个备选路径”,更接近某种软 BFS,而不是显式 CoT 那样每一步都必须做离散承诺。
这是一个非常有研究味道的观点。
#五、为什么 OpenMythos 认为 Mythos 会表现出“系统性泛化”
README 里一个很强的 claim 是:looped transformers 可能更容易实现 systematic generalization。
也就是:
模型不只会做训练见过的组合,还能在没见过的新组合上突然做对。
它给出的叙述是三阶段:
- Memorization
- In-distribution generalization
- Systematic generalization
这种说法背后的直觉是:
- recurrence 让模型不是简单地“从输入映射到输出”
- 而是像在隐藏空间里反复施加某个组合规则
- 因此它更容易把规则推广到更长链、更新颖的组合上
这和普通 fixed-depth transformer 的“规则组合能力有限”形成鲜明对比。
需要注意的是:
- 这更像是一种架构能力解释
- 不是 Anthropic Mythos 的直接证据
- 但作为研究假说,它是很有启发性的
#六、Depth Extrapolation:为什么“多跑几轮”可能真的更会思考
OpenMythos 提到一个非常关键的能力:depth extrapolation。
意思是:
- 训练时模型可能只见过较浅循环深度
- 推理时如果让它多循环几轮
- 它就可能处理更长的 reasoning chain
例如:
- 训练只见过 5-hop reasoning
- 推理时跑更多 loop
- 结果可以做 10-hop reasoning
这其实和 test-time scaling 的叙述高度一致。
OpenMythos 的核心判断是:
Mythos 的“强推理感”可能并不来自写出更长 CoT,而来自一次 forward 内部做了更多 latent loops。
也就是说,真正的“多想几步”,不是 prompt 里写出来,而是架构里多跑几轮。
这非常值得注意,因为它把推理增强从“输出侧工程”转到了“内部计算结构”。
#七、稳定性:这套假说最值得认真看的地方
如果只从研究角度看,我认为 OpenMythos 最值得认真对待的,不是它对 Mythos 名字的猜测,而是它对递归稳定性问题的重视。
Looped transformer 的最大问题从来不是“想法听起来酷”,而是:
训练会不会直接炸掉?
README 提到两个典型失败模式:
- residual explosion
- loss spikes
为了解释如何让递归稳定,它引入了一整套 dynamical systems 视角。
#LTI 视角
它把线性部分抽象成:
h_{t+1} = A·h_t + B·e
然后指出:
ρ(A) < 1→ 稳定ρ(A) ≥ 1→ 发散
这就把“模型会不会炸”变成了一个很清晰的控制论问题。
#代码实现上的对应
在 main.py 里,OpenMythos 明确实现了 LTIInjection。文档里也写了:
- 把
A参数化为负对角矩阵 - 再通过离散化得到
A_discrete - 从构造上保证
ρ(A) < 1
这条路线和 README 中引用的 Parcae 论文是对齐的。
所以这里不是“只会说概念”,而是 README → docs → code 三层是一致的。
这一点很重要,因为它意味着:
OpenMythos 的作者至少知道,递归模型最难的不是提出 recurrence,而是保证 recurrence 可训练、可控、不会发散。
#八、ACT / Adaptive Halting:为什么不可能所有输入都跑固定最大循环数
OpenMythos 非常强调“更多 loop 不一定总更好”。
超过某个点,模型会出现:
- 过度思考
- 隐状态漂移
- 已经接近答案却继续偏离
这就是它说的 overthinking。
所以它认为,如果 Mythos 真是 looped model,那么几乎一定需要某种:
Adaptive Computation Time (ACT) 或 learned halting mechanism
#代码里的证据
在 MythosConfig 里,有:
act_threshold: float = 0.99
在内部模块说明里也有 ACTHalting:
- 每个 position 学一个 halting probability
- 累积概率超过阈值就停
- 简单 token 提前退出
- 难 token 继续循环
这意味着 OpenMythos 不只是“可以固定循环 T 次”,而是确实在试图实现一种:
- 动态深度
- 难样本多算,简单样本少算
- 同一 batch 内部也能差异化计算
这和 Mythos 想解释的“按需思考”非常吻合。
#九、Loop Index Embedding:共享权重如何在不同 loop 干不同的事
这是 OpenMythos 里我个人很喜欢的一个点。
问题是:
如果 recurrent block 每一轮都用同样的权重,为什么第 1 轮和第 10 轮不会完全干同样的事?
README 的回答是:
给每一轮循环一个 loop index embedding,类似 sequence position 的 RoPE,但作用在“深度维度”上。
#代码里对应的模块
loop_index_embedding(...)
它会:
- 根据当前 loop_t 生成一个 sinusoidal signal
- 注入到 hidden state 的前若干个通道里
这意味着:
- 共享权重仍然共享
- 但每个循环步知道自己在“第几轮”
- 于是模型可以学会:
- 前几轮做粗匹配
- 中间几轮做组合推理
- 后几轮做 refinement / verification
这个设计极其优雅,因为它在几乎不增加参数的前提下,大幅增加了 recurrent block 的表达力。
#十、MoE:OpenMythos 如何解释“广度”问题
looping 能解释“深度”,但不能解释“广度”。
一个真正强的模型还得同时会:
- 代码
- 数学
- 文学
- 科学
- 法律
- 通用知识
OpenMythos 认为这部分更像需要 Mixture-of-Experts(MoE) 来承担。
所以它提出了一个二元解释:
looping gives depth; MoE gives breadth
#代码里对应的实现
OpenMythos 不是只在 README 里写 MoE,它在代码里真的实现了:
MoEFFN- routed experts
- shared experts
- top-k expert routing
- router bias / load balancing
这意味着它不是“普通 transformer + 一个 loop”,而是:
- Recurrent block 内部使用的是带稀疏路由的 FFN
- 不同 token、不同 loop 可能走不同专家组合
这就非常像一种“在不同深度上走不同子网络”的结构。
从表现力角度看,这比纯共享 dense FFN 强得多。
#十一、MLA / GQA:README 里说的想法,代码里到底有没有落下来
有,而且这是 OpenMythos 代码完成度比较高的地方。
#它支持两种注意力
gqamla
在 MythosConfig 中:
attn_type: str = "mla"
默认直接就是 MLA。
#为什么这件事重要
如果模型要做“高循环深度 + 长上下文”,KV cache 是非常大的瓶颈。
OpenMythos 文档里明确解释:
- GQA:通过减少 KV heads 降低 cache
- MLA:通过低秩 latent 压缩 KV cache,显著减小内存
从 docs 来看,它甚至把 MLA 说成可带来 10–20× smaller cache 的路线。
这说明 OpenMythos 不只是关注“会不会想”,也在关注:
这种想法在工程上是否可能撑住长 context 和高循环深度
这一点很现实,也让整个理论框架显得更完整。
#十二、LoRA per depth:它不是完全重复自己
另一个值得注意的实现是 LoRAAdapter。
它的思路是:
- 大权重共享
- 但每个循环步叠加一个小的 depth-wise low-rank adaptation
这样做的好处是:
- 仍然保留参数效率
- 但每个深度可以有轻微不同的行为模式
README 中把这件事理解为:
Mythos 未必是“完全一样的 block 死循环”,而可能是在共享主干上,每个深度有一点小偏移。
这使得“共享权重”和“深度特化”之间形成一个折中。
从研究设计看,这很聪明。
#十三、Scaling Law 视角:它在说 Mythos 可能不是“看上去那么大”
OpenMythos 很看重 looped model 的 scaling law,特别是 Parcae 那条线。
核心意思是:
- 最优训练不是简单“参数最大化”
- 而是要在 参数 / token / recurrence 之间共同平衡
- 推理时增加 loop 也会提升质量,但收益是饱和递减的
这会带来一个很强的含义:
Mythos 的强大,也许有很大一部分来自“动态深度”,而不是静态参数量。
于是一个表面上“像几百 B 甚至 T 级能力”的系统,未必真是靠线性堆叠参数做到的,而可能是:
- 参数很大,但不需要无限大
- 通过 recurrence 把单次计算深度做出来
- 再通过 MoE 提供多领域覆盖
这就是 OpenMythos 最吸引人的工程想象之一。
#十四、Memorization vs Reasoning:它为什么能解释一种“很会想但不一定很会背”的风格
README 还有一条我觉得很有价值的判断:
looped model 结构上可能天然更偏 reasoning,而不那么偏 memorization。
也就是说:
- 它更擅长做结构组合、迭代传播和问题分解
- 但未必最擅长稳定地存死知识
OpenMythos 用这个来解释 Mythos 风格中的一个可能现象:
- 对新问题、复杂组合问题特别强
- 但在某些 factual recall 任务上,未必显得像一个“超大知识库”那样稳定
这个解释是否真实,还需要实证,但从架构偏置的角度看,它是有逻辑的。
#十五、可信度分层:哪些东西更靠谱,哪些更像大胆推断
如果要认真调研,这一步必须做。
#A. 比较靠谱的部分
这些部分至少在公开研究中是强成立的:
- Looped / recurrent-depth transformer 是真实研究方向
- Latent reasoning 是很活跃的研究方向
- ACT / halting 机制有坚实文献基础
- 稳定递归确实需要动力系统约束
- MoE + dynamic compute 确实是前沿模型架构中的关键套路
#B. 中等可信的部分
这些属于“逻辑上很顺,但不等于 Claude 一定这样做”:
- Mythos 可能采用 RDT / LT
- Mythos 可能有 adaptive halting
- Mythos 可能把强推理更多建立在 latent recurrence 上
- Mythos 可能通过 MoE 提供 breadth
#C. 更 speculative 的部分
这些更多是漂亮的推断,而不是被验证的事实:
- Mythos 一定就是 README 这套组合
- 它一定有 loop-index RoPE 风格机制
- 它一定采用 OpenMythos 所描绘的 exact module composition
- “像 BFS 一样探索多个路径”这一解释是唯一正确解释
所以我会说:
OpenMythos 的价值不在“它已经证明了 Mythos 是这样”,而在“它给出了一套非常值得验证的候选架构解释”。
#十六、和一般 CoT 模型、普通 Transformer、o1/R1 风格模型有什么差别
#1. 和普通 Transformer 的差别
普通 transformer:
- 深度固定
- 参数和深度绑定
- 推理增强更多靠 prompt / output-side CoT
Mythos 假说:
- 深度可动态调整
- 循环深度不等于参数深度
- 推理更多发生在 latent recurrence 里
#2. 和普通显式 CoT 的差别
显式 CoT:
- 用户能看到中间过程
- 每一步都离散成 token
- 速度慢、token 成本高
latent recurrence:
- 中间过程不可见
- 推理在隐藏空间进行
- 更可能保留并行候选状态
#3. 和“纯 RL 强化出来的推理模型”的差别
很多推理模型现在给人的感觉是:
- 主要靠更好的 CoT 习惯
- 更长的输出推理链
- 通过 RL 学会更稳定的 reasoning trajectory
OpenMythos 的叙事则是:
- 不只是“更会写推理过程”
- 而是“底层就更擅长内部多轮迭代思考”
这个差异非常本质。
#十七、从代码看,OpenMythos 到底是“README 工程”还是“真做了点东西”
我的判断是:
它不是纸上谈兵。
从 main.py 和 docs/open_mythos.md 看,它至少真做了这些:
- MythosConfig
- Prelude / Recurrent / Coda 三段式
- GQA / MLA 双注意力
- MoE FFN
- loop-index embedding
- LoRA depth adaptation
- ACT halting
- LTI-stable injection
- generate / KV cache 机制
- variant configs(1B 到 1T)
当然,这不意味着它已经证明“这样训练出来就会是 Mythos 那种能力”。
但它已经不是纯 README 神话,而是:
一个把 README 假说相当认真地落到了代码对象结构中的实验性框架。
#十八、我对 OpenMythos 的总体判断
#作为“事实主张”
它不能证明 Claude Mythos 就是这种结构。
#作为“理论重建”
它质量很高,因为它把多条真实研究路线拼成了一套能自洽的解释框架。
#作为“研究路线图”
它非常值得关注,因为它精准指向了几个未来极关键的问题:
- 推理深度能否从参数中解耦?
- latent reasoning 是否会替代显式 CoT?
- recurrence 如何稳定训练?
- dynamic halting 如何成为 test-time scaling 的核心?
- depth 与 breadth 是否会分别由 recurrence 和 MoE 承担?
如果你关心下一代强推理模型,OpenMythos 的价值,远大于它这个仓库本身。
#十九、一句话总结 Mythos
如果只用一句话概括 Mythos,我会这么说:
Mythos 可以被理解成一种“会在脑内默默反复思考很多轮”的模型:它不是靠把中间推理写出来,而是在共享核心模块上做多轮隐藏空间迭代,用稳定递归、动态停止和可能的 MoE 路由,把深度推理和广度能力结合起来。
这就是 OpenMythos 想表达的核心。
#二十、我的最终结论
我对这份材料的最终判断是:
- OpenMythos 不能当作 Claude 内幕资料读。
- 但它是一份非常有研究价值的架构猜想文档。
- 它最有价值的地方,不是 Mythos 这个名字,而是把 looped transformer、latent reasoning、稳定递归、ACT 和 MoE 拼成了一套统一叙事。
- 如果未来更强的推理模型真的出现“更少参数却更会想”的特征,那么 OpenMythos 提供的这条解释路线大概率会越来越重要。
#附:最值得继续深挖的方向
如果后续继续研究,我认为最值得继续追的不是“Claude 到底是不是这样”,而是:
- Parcae 的稳定 loop scaling law
- latent reasoning 与显式 CoT 的能力边界
- ACT / halting 在大模型中的真实可扩展性
- loop-index embedding 是否真能显著提升 recurrent expressiveness
- MoE 与 recurrence 在同一模型中如何协同训练
这些问题,比 Mythos 这个名字本身更重要。
#链接
- GitHub: https://github.com/kyegomez/OpenMythos
- README 中央假设:https://github.com/kyegomez/OpenMythos#the-central-hypothesis
- 代码:
open_mythos/main.py - API 文档:
docs/open_mythos.md