#从 CALM 出发:引用论文与后续工作梳理
#说明
这份笔记从 CALM(Continuous Autoregressive Language Models) 出发,先看目前能检索到的引用论文,再按研究方向梳理它之后的一些相关工作。
需要先说明两点:
- 这篇论文比较新,因此当前可见的引用数量还不多。
- 我这里主要基于公开学术索引中的可检索条目做梳理,适合用来把握方向演化,不适合当作“完整引用清单”。
#1. CALM 的核心位置
CALM 的核心主张是:
把语言建模从“下一 token 预测”推进到“下一连续语义向量预测”。
它试图解决的问题是:
- token 自回归推理链太长
- 单步语义带宽太低
- 语言模型速度受到生成粒度限制
因此,CALM 代表的是一条很明确的路线:
- 从 token-level autoregression
- 走向 chunk-level / latent-level autoregression
也可以把它看作:
语言模型的“latent 化”“分块化”“高语义带宽化”。
#2. 当前能看到的引用论文
基于可检索结果,目前能看到几篇引用或明显受其启发的工作。它们不一定都完全沿着 CALM 原方法走,但都和“连续 token / chunk 表示 / 更高层级自回归”有关。
#2.1 LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens (2026)
这篇工作从标题就能看出和 CALM 的直接呼应:
- 关键词就是 continuous autoregressive tokens
- 但对象不是纯文本,而是 motion(动作)理解与生成
#它说明了什么
这说明 CALM 的影响已经开始外溢到:
- 动作序列建模
- 连续模态生成
- 跨模态预训练模型
也就是说,CALM 的思想不只是“替代 next-token text generation”,还可能被解释为:
在连续时序模态里,用更大粒度、更连续的自回归单位代替离散 token。
#它的重要性
如果这类工作增多,意味着 CALM 可能不是只影响语言建模,而是会影响更广义的 sequence modeling。
#2.2 Context-level Language Modeling by Learning Predictive Context Embeddings (2025)
这篇工作从标题上看,不一定完全复现 CALM 的技术路径,但和 CALM 有明显共鸣:
- 它强调的是 context-level language modeling
- 不是单纯下一 token,而是学习 predictive context embeddings
#可能的共通点
这类工作通常在探索:
- 更高层上下文单元的预测
- 用 embedding / latent 表示替代局部离散 token 目标
- 把“预测字符/词”转成“预测语义上下文状态”
#它的意义
这说明 CALM 并不是孤立出现的。它所在的大方向其实是:
语言建模正在从 token 层,往 context / chunk / latent 层抬升。
#2.3 ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation (2026)
这篇论文虽然不一定是 CALM 的直接延续,但从标题看很有意思:
- token-to-concept compression
- implicit compute allocation
#它和 CALM 的关系
CALM 讲的是:
- 把 token chunk 压成连续语义向量
- 提高单步语义带宽
而 ConceptMoE 看起来更像是在研究:
- 如何把 token 压成更高层语义概念
- 如何根据概念层压缩来分配计算预算
#它体现的趋势
这类工作说明一个很重要的演化:
大家开始不再默认“token 是唯一正确的计算单位”。
这和 CALM 的精神是一致的。
#2.4 SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion (2026)
这篇论文的关键词是:
- hierarchical dependencies
- multi-resolution recursion
它未必直接是连续 latent 自回归,但它强调:
- 序列建模应该有层级结构
- 不同分辨率上递归学习依赖关系
#和 CALM 的联系
CALM 挑战的是 token 级单一建模粒度。
SpiralFormer 则在结构侧回应同一个问题:
语言/序列结构不应该只在单一粒度上展开。
所以这篇更像是 CALM 邻近方向的一种结构主义回应。
#2.5 TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment (2026)
这篇看起来偏语音,但它引用 CALM 也不奇怪。
#为什么会引用
因为 CALM 的核心不是“文本专属技巧”,而是:
- 用更高语义单元做序列生成
- 用连续空间承载更大的局部信息块
语音序列天然就是高维、连续、长链条,所以它对这类思想很敏感。
#启示
CALM 的后续影响很可能会先在这些地方冒出来:
- 语音生成
- 动作序列生成
- 视频 token 序列生成
- 多模态连续建模
因为这些模态本来就比文本更接近“连续时序世界”。
#3. 从 CALM 往后,后续工作大致可以分成哪几条线
我觉得从这篇论文出发,后面的工作大概会分成 4 条主线。
#3.1 第一条线:连续自回归 token / latent 序列建模
这是最直接的后续方向。
#核心问题
- token 是否必须离散?
- 一个生成步是否必须只对应一个 token?
- 能否在更平滑、更高带宽的 latent 空间里建模?
#CALM 开的头
CALM 直接提出:
- chunk → continuous vector
- autoregression on vectors
- decode back to token sequence
#后续可能的工作点
- 更好的 chunk autoencoder
- 更稳定的 latent autoregressive training
- 更长 chunk 的压缩与重建
- 分层 latent(粗粒度语义 + 细粒度展开)
- 跨文本/语音/动作统一 continuous token 接口
#代表意义
这是最像“从 next-token prediction 脱身”的路线。
#3.2 第二条线:层级式 / 多分辨率语言建模
不是所有后续工作都会直接接受“连续 latent”这件事,但很多会接受 CALM 带来的一个更根本判断:
单一 token 粒度太窄了。
于是就会出现另一类方案:
- 保留部分 token 表示
- 但增加 chunk-level / sentence-level / context-level 建模
- 或者做 multi-resolution recursion
#这类工作的目标
- 降低长程依赖难度
- 提升全局规划能力
- 减少生成时的短视问题
- 引入更像“段落级思考”的建模结构
#和 CALM 的区别
- CALM 更激进,直接改生成单位
- 这类方法更折中,强调层级结构,而不一定完全抛弃 token
这条线更容易工程落地,所以我觉得它未来可能比纯 CALM 路线更快扩散。
#3.3 第三条线:token 压缩 / 概念压缩 / 计算分配
CALM 的一个隐藏影响,是它让大家重新问:
是不是每个 token 都值得被同等对待、同等计算?
于是就会衍生出:
- token-to-concept compression
- adaptive compute allocation
- token merging / token pruning
- 基于语义块的 selective processing
#这条线的重点
- 不一定追求替代 next-token generation
- 但会借 CALM 的思路,重新思考 token 的地位
- 更像把“语义块”当成资源分配单位
#为什么这条线重要
因为它连接到实际大模型部署里的一个核心问题:
- 推理成本
- 长上下文效率
- 计算预算分配
这比“纯理论上替代 token 自回归”更容易迅速形成工程影响。
#3.4 第四条线:跨模态连续序列建模
我觉得 CALM 真正可能发力的地方,甚至不一定首先是纯文本,而可能是:
- motion
- speech
- video latent sequence
- multimodal sequence
#为什么
因为这些模态本来就具备:
- 连续性更强
- token 化更人为
- chunk-level latent 更自然
文本因为离散性太强,反而最难。
所以像:
- LLaMo 这种动作建模
- 语音建模工作
- 未来的视频 latent autoregression
都可能比纯文本更快吸收 CALM 的思想。
#4. CALM 之后,研究问题发生了什么变化
如果说 CALM 之前大家主要问的是:
- 怎么更快做 token 生成?
- 怎么更好做 speculative decoding?
- 怎么优化 KV cache?
那么 CALM 之后,一部分研究开始问的是:
#4.1 token 还是不是最基本单位?
这是最根本的问题。
#4.2 语言能不能先生成“语义块”,再展开为 token?
这其实更接近层级生成。
#4.3 连续 latent 空间是否更适合高带宽生成?
这是 CALM 的核心赌注。
#4.4 高层 chunk / context / concept 能否承担更多推理责任?
这会把语言模型往“规划—展开”结构推进。
#5. 我对 CALM 后续工作的总体判断
#5.1 它短期内不会直接推翻 next-token LLM
原因很简单:
- token 自回归太成熟了
- 训练、评估、部署生态都围绕它建立
- 连续 latent 生成的稳定性和控制性仍有挑战
所以短期看,CALM 更像:
- 一个前沿研究刺激点
- 一个值得探索的替代范式
- 一个会影响邻近方向的问题设定者
而不是马上改朝换代。
#5.2 它真正的影响,可能先体现在“邻近思想扩散”
比如:
- chunk-level modeling
- context-level embeddings
- token compression
- hierarchical sequence modeling
- multimodal continuous autoregression
也就是说,很多后续工作未必长得像 CALM,但会在核心问题意识上继承它:
提高每步语义带宽,降低 token 粒度束缚。
#5.3 它对未来最重要的贡献,可能不是某个具体算法,而是改了问题的问法
这个很重要。
CALM 最强的地方,也许不是“它已经给出最终答案”,而是它逼着大家重新问:
- 为什么语言模型要一步一个 token?
- 为什么上下文组织只能是平铺 token?
- 为什么高层语义单元不能成为建模对象?
这类问题一旦被打开,后面就会长出很多分支。
#6. 一个简短结论
如果一句话总结:
CALM 之后的工作,还处在“早期分叉”阶段。当前能看到的引用和相关方向主要集中在:连续自回归 token、上下文级/概念级表示、层级式序列建模,以及向动作、语音等连续模态扩展。
更直白一点说:
- CALM 还没有形成一个像 Transformer 那样的大一统流派
- 但它已经清楚地推动了一个研究趋势:
从 token-level language modeling,走向 chunk-level / context-level / concept-level / latent-level sequence modeling。
这才是它现在最值得关注的地方。
#7. 后续如果继续深挖,建议怎么读
如果你打算继续沿这条线读文献,我建议按下面顺序:
#第一组:直接邻近论文
- LLaMo
- Context-level Language Modeling by Learning Predictive Context Embeddings
- ConceptMoE
#第二组:方法论邻居
- multi-token prediction
- hierarchical language modeling
- latent language modeling
- non-autoregressive language modeling
#第三组:跨模态外延
- speech latent sequence modeling
- motion generation with continuous tokens
- video latent autoregressive models
这样读下来,你会更容易看清:
- 哪些是 CALM 的直接延续
- 哪些只是共享“高层建模单位”思想
- 哪些可能最终比 CALM 本体更实用