主题归档 video

#从 CALM 出发:引用论文与后续工作梳理

#说明

这份笔记从 CALM(Continuous Autoregressive Language Models) 出发,先看目前能检索到的引用论文,再按研究方向梳理它之后的一些相关工作。

需要先说明两点:

  1. 这篇论文比较新,因此当前可见的引用数量还不多。
  2. 我这里主要基于公开学术索引中的可检索条目做梳理,适合用来把握方向演化,不适合当作“完整引用清单”。

#1. CALM 的核心位置

CALM 的核心主张是:

把语言建模从“下一 token 预测”推进到“下一连续语义向量预测”。

它试图解决的问题是:

  • token 自回归推理链太长
  • 单步语义带宽太低
  • 语言模型速度受到生成粒度限制

因此,CALM 代表的是一条很明确的路线:

  • 从 token-level autoregression
  • 走向 chunk-level / latent-level autoregression

也可以把它看作:

语言模型的“latent 化”“分块化”“高语义带宽化”。


#2. 当前能看到的引用论文

基于可检索结果,目前能看到几篇引用或明显受其启发的工作。它们不一定都完全沿着 CALM 原方法走,但都和“连续 token / chunk 表示 / 更高层级自回归”有关。

#2.1 LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens (2026)

这篇工作从标题就能看出和 CALM 的直接呼应:

  • 关键词就是 continuous autoregressive tokens
  • 但对象不是纯文本,而是 motion(动作)理解与生成

#它说明了什么

这说明 CALM 的影响已经开始外溢到:

  • 动作序列建模
  • 连续模态生成
  • 跨模态预训练模型

也就是说,CALM 的思想不只是“替代 next-token text generation”,还可能被解释为:

在连续时序模态里,用更大粒度、更连续的自回归单位代替离散 token。

#它的重要性

如果这类工作增多,意味着 CALM 可能不是只影响语言建模,而是会影响更广义的 sequence modeling。


#2.2 Context-level Language Modeling by Learning Predictive Context Embeddings (2025)

这篇工作从标题上看,不一定完全复现 CALM 的技术路径,但和 CALM 有明显共鸣:

  • 它强调的是 context-level language modeling
  • 不是单纯下一 token,而是学习 predictive context embeddings

#可能的共通点

这类工作通常在探索:

  • 更高层上下文单元的预测
  • 用 embedding / latent 表示替代局部离散 token 目标
  • 把“预测字符/词”转成“预测语义上下文状态”

#它的意义

这说明 CALM 并不是孤立出现的。它所在的大方向其实是:

语言建模正在从 token 层,往 context / chunk / latent 层抬升。


#2.3 ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation (2026)

这篇论文虽然不一定是 CALM 的直接延续,但从标题看很有意思:

  • token-to-concept compression
  • implicit compute allocation

#它和 CALM 的关系

CALM 讲的是:

  • 把 token chunk 压成连续语义向量
  • 提高单步语义带宽

而 ConceptMoE 看起来更像是在研究:

  • 如何把 token 压成更高层语义概念
  • 如何根据概念层压缩来分配计算预算

#它体现的趋势

这类工作说明一个很重要的演化:

大家开始不再默认“token 是唯一正确的计算单位”。

这和 CALM 的精神是一致的。


#2.4 SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion (2026)

这篇论文的关键词是:

  • hierarchical dependencies
  • multi-resolution recursion

它未必直接是连续 latent 自回归,但它强调:

  • 序列建模应该有层级结构
  • 不同分辨率上递归学习依赖关系

#和 CALM 的联系

CALM 挑战的是 token 级单一建模粒度。

SpiralFormer 则在结构侧回应同一个问题:

语言/序列结构不应该只在单一粒度上展开。

所以这篇更像是 CALM 邻近方向的一种结构主义回应。


#2.5 TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment (2026)

这篇看起来偏语音,但它引用 CALM 也不奇怪。

#为什么会引用

因为 CALM 的核心不是“文本专属技巧”,而是:

  • 用更高语义单元做序列生成
  • 用连续空间承载更大的局部信息块

语音序列天然就是高维、连续、长链条,所以它对这类思想很敏感。

#启示

CALM 的后续影响很可能会先在这些地方冒出来:

  • 语音生成
  • 动作序列生成
  • 视频 token 序列生成
  • 多模态连续建模

因为这些模态本来就比文本更接近“连续时序世界”。


#3. 从 CALM 往后,后续工作大致可以分成哪几条线

我觉得从这篇论文出发,后面的工作大概会分成 4 条主线。


#3.1 第一条线:连续自回归 token / latent 序列建模

这是最直接的后续方向。

#核心问题

  • token 是否必须离散?
  • 一个生成步是否必须只对应一个 token?
  • 能否在更平滑、更高带宽的 latent 空间里建模?

#CALM 开的头

CALM 直接提出:

  • chunk → continuous vector
  • autoregression on vectors
  • decode back to token sequence

#后续可能的工作点

  • 更好的 chunk autoencoder
  • 更稳定的 latent autoregressive training
  • 更长 chunk 的压缩与重建
  • 分层 latent(粗粒度语义 + 细粒度展开)
  • 跨文本/语音/动作统一 continuous token 接口

#代表意义

这是最像“从 next-token prediction 脱身”的路线。


#3.2 第二条线:层级式 / 多分辨率语言建模

不是所有后续工作都会直接接受“连续 latent”这件事,但很多会接受 CALM 带来的一个更根本判断:

单一 token 粒度太窄了。

于是就会出现另一类方案:

  • 保留部分 token 表示
  • 但增加 chunk-level / sentence-level / context-level 建模
  • 或者做 multi-resolution recursion

#这类工作的目标

  • 降低长程依赖难度
  • 提升全局规划能力
  • 减少生成时的短视问题
  • 引入更像“段落级思考”的建模结构

#和 CALM 的区别

  • CALM 更激进,直接改生成单位
  • 这类方法更折中,强调层级结构,而不一定完全抛弃 token

这条线更容易工程落地,所以我觉得它未来可能比纯 CALM 路线更快扩散。


#3.3 第三条线:token 压缩 / 概念压缩 / 计算分配

CALM 的一个隐藏影响,是它让大家重新问:

是不是每个 token 都值得被同等对待、同等计算?

于是就会衍生出:

  • token-to-concept compression
  • adaptive compute allocation
  • token merging / token pruning
  • 基于语义块的 selective processing

#这条线的重点

  • 不一定追求替代 next-token generation
  • 但会借 CALM 的思路,重新思考 token 的地位
  • 更像把“语义块”当成资源分配单位

#为什么这条线重要

因为它连接到实际大模型部署里的一个核心问题:

  • 推理成本
  • 长上下文效率
  • 计算预算分配

这比“纯理论上替代 token 自回归”更容易迅速形成工程影响。


#3.4 第四条线:跨模态连续序列建模

我觉得 CALM 真正可能发力的地方,甚至不一定首先是纯文本,而可能是:

  • motion
  • speech
  • video latent sequence
  • multimodal sequence

#为什么

因为这些模态本来就具备:

  • 连续性更强
  • token 化更人为
  • chunk-level latent 更自然

文本因为离散性太强,反而最难。

所以像:

  • LLaMo 这种动作建模
  • 语音建模工作
  • 未来的视频 latent autoregression

都可能比纯文本更快吸收 CALM 的思想。


#4. CALM 之后,研究问题发生了什么变化

如果说 CALM 之前大家主要问的是:

  • 怎么更快做 token 生成?
  • 怎么更好做 speculative decoding?
  • 怎么优化 KV cache?

那么 CALM 之后,一部分研究开始问的是:

#4.1 token 还是不是最基本单位?

这是最根本的问题。

#4.2 语言能不能先生成“语义块”,再展开为 token?

这其实更接近层级生成。

#4.3 连续 latent 空间是否更适合高带宽生成?

这是 CALM 的核心赌注。

#4.4 高层 chunk / context / concept 能否承担更多推理责任?

这会把语言模型往“规划—展开”结构推进。


#5. 我对 CALM 后续工作的总体判断

#5.1 它短期内不会直接推翻 next-token LLM

原因很简单:

  • token 自回归太成熟了
  • 训练、评估、部署生态都围绕它建立
  • 连续 latent 生成的稳定性和控制性仍有挑战

所以短期看,CALM 更像:

  • 一个前沿研究刺激点
  • 一个值得探索的替代范式
  • 一个会影响邻近方向的问题设定者

而不是马上改朝换代。

#5.2 它真正的影响,可能先体现在“邻近思想扩散”

比如:

  • chunk-level modeling
  • context-level embeddings
  • token compression
  • hierarchical sequence modeling
  • multimodal continuous autoregression

也就是说,很多后续工作未必长得像 CALM,但会在核心问题意识上继承它:

提高每步语义带宽,降低 token 粒度束缚。

#5.3 它对未来最重要的贡献,可能不是某个具体算法,而是改了问题的问法

这个很重要。

CALM 最强的地方,也许不是“它已经给出最终答案”,而是它逼着大家重新问:

  • 为什么语言模型要一步一个 token?
  • 为什么上下文组织只能是平铺 token?
  • 为什么高层语义单元不能成为建模对象?

这类问题一旦被打开,后面就会长出很多分支。


#6. 一个简短结论

如果一句话总结:

CALM 之后的工作,还处在“早期分叉”阶段。当前能看到的引用和相关方向主要集中在:连续自回归 token、上下文级/概念级表示、层级式序列建模,以及向动作、语音等连续模态扩展。

更直白一点说:

  • CALM 还没有形成一个像 Transformer 那样的大一统流派
  • 但它已经清楚地推动了一个研究趋势:

从 token-level language modeling,走向 chunk-level / context-level / concept-level / latent-level sequence modeling。

这才是它现在最值得关注的地方。


#7. 后续如果继续深挖,建议怎么读

如果你打算继续沿这条线读文献,我建议按下面顺序:

#第一组:直接邻近论文

  • LLaMo
  • Context-level Language Modeling by Learning Predictive Context Embeddings
  • ConceptMoE

#第二组:方法论邻居

  • multi-token prediction
  • hierarchical language modeling
  • latent language modeling
  • non-autoregressive language modeling

#第三组:跨模态外延

  • speech latent sequence modeling
  • motion generation with continuous tokens
  • video latent autoregressive models

这样读下来,你会更容易看清:

  • 哪些是 CALM 的直接延续
  • 哪些只是共享“高层建模单位”思想
  • 哪些可能最终比 CALM 本体更实用