主题归档 video

#从 CALM 出发：引用论文与后续工作梳理

#说明

这份笔记从 CALM（Continuous Autoregressive Language Models） 出发，先看目前能检索到的引用论文，再按研究方向梳理它之后的一些相关工作。

需要先说明两点：

这篇论文比较新，因此当前可见的引用数量还不多。
我这里主要基于公开学术索引中的可检索条目做梳理，适合用来把握方向演化，不适合当作“完整引用清单”。

#1. CALM 的核心位置

CALM 的核心主张是：

把语言建模从“下一 token 预测”推进到“下一连续语义向量预测”。

它试图解决的问题是：

token 自回归推理链太长
单步语义带宽太低
语言模型速度受到生成粒度限制

因此，CALM 代表的是一条很明确的路线：

从 token-level autoregression
走向 chunk-level / latent-level autoregression

也可以把它看作：

语言模型的“latent 化”“分块化”“高语义带宽化”。

#2. 当前能看到的引用论文

基于可检索结果，目前能看到几篇引用或明显受其启发的工作。它们不一定都完全沿着 CALM 原方法走，但都和“连续 token / chunk 表示 / 更高层级自回归”有关。

#2.1 LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens (2026)

这篇工作从标题就能看出和 CALM 的直接呼应：

关键词就是 continuous autoregressive tokens
但对象不是纯文本，而是 motion（动作）理解与生成

#它说明了什么

这说明 CALM 的影响已经开始外溢到：

动作序列建模
连续模态生成
跨模态预训练模型

也就是说，CALM 的思想不只是“替代 next-token text generation”，还可能被解释为：

在连续时序模态里，用更大粒度、更连续的自回归单位代替离散 token。

#它的重要性

如果这类工作增多，意味着 CALM 可能不是只影响语言建模，而是会影响更广义的 sequence modeling。

#2.2 Context-level Language Modeling by Learning Predictive Context Embeddings (2025)

这篇工作从标题上看，不一定完全复现 CALM 的技术路径，但和 CALM 有明显共鸣：

它强调的是 context-level language modeling
不是单纯下一 token，而是学习 predictive context embeddings

#可能的共通点

这类工作通常在探索：

更高层上下文单元的预测
用 embedding / latent 表示替代局部离散 token 目标
把“预测字符/词”转成“预测语义上下文状态”

#它的意义

这说明 CALM 并不是孤立出现的。它所在的大方向其实是：

语言建模正在从 token 层，往 context / chunk / latent 层抬升。

#2.3 ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation (2026)

这篇论文虽然不一定是 CALM 的直接延续，但从标题看很有意思：

token-to-concept compression
implicit compute allocation

#它和 CALM 的关系

CALM 讲的是：

把 token chunk 压成连续语义向量
提高单步语义带宽

而 ConceptMoE 看起来更像是在研究：

如何把 token 压成更高层语义概念
如何根据概念层压缩来分配计算预算

#它体现的趋势

这类工作说明一个很重要的演化：

大家开始不再默认“token 是唯一正确的计算单位”。

这和 CALM 的精神是一致的。

#2.4 SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion (2026)

这篇论文的关键词是：

hierarchical dependencies
multi-resolution recursion

它未必直接是连续 latent 自回归，但它强调：

序列建模应该有层级结构
不同分辨率上递归学习依赖关系

#和 CALM 的联系

CALM 挑战的是 token 级单一建模粒度。

SpiralFormer 则在结构侧回应同一个问题：

语言/序列结构不应该只在单一粒度上展开。

所以这篇更像是 CALM 邻近方向的一种结构主义回应。

#2.5 TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment (2026)

这篇看起来偏语音，但它引用 CALM 也不奇怪。

#为什么会引用

因为 CALM 的核心不是“文本专属技巧”，而是：

用更高语义单元做序列生成
用连续空间承载更大的局部信息块

语音序列天然就是高维、连续、长链条，所以它对这类思想很敏感。

#启示

CALM 的后续影响很可能会先在这些地方冒出来：

语音生成
动作序列生成
视频 token 序列生成
多模态连续建模

因为这些模态本来就比文本更接近“连续时序世界”。

#3. 从 CALM 往后，后续工作大致可以分成哪几条线

我觉得从这篇论文出发，后面的工作大概会分成 4 条主线。

#3.1 第一条线：连续自回归 token / latent 序列建模

这是最直接的后续方向。

#核心问题

token 是否必须离散？
一个生成步是否必须只对应一个 token？
能否在更平滑、更高带宽的 latent 空间里建模？

#CALM 开的头

CALM 直接提出：

chunk → continuous vector
autoregression on vectors
decode back to token sequence

#后续可能的工作点

更好的 chunk autoencoder
更稳定的 latent autoregressive training
更长 chunk 的压缩与重建
分层 latent（粗粒度语义 + 细粒度展开）
跨文本/语音/动作统一 continuous token 接口

#代表意义

这是最像“从 next-token prediction 脱身”的路线。

#3.2 第二条线：层级式 / 多分辨率语言建模

不是所有后续工作都会直接接受“连续 latent”这件事，但很多会接受 CALM 带来的一个更根本判断：

单一 token 粒度太窄了。

于是就会出现另一类方案：

保留部分 token 表示
但增加 chunk-level / sentence-level / context-level 建模
或者做 multi-resolution recursion

#这类工作的目标

降低长程依赖难度
提升全局规划能力
减少生成时的短视问题
引入更像“段落级思考”的建模结构

#和 CALM 的区别

CALM 更激进，直接改生成单位
这类方法更折中，强调层级结构，而不一定完全抛弃 token

这条线更容易工程落地，所以我觉得它未来可能比纯 CALM 路线更快扩散。

#3.3 第三条线：token 压缩 / 概念压缩 / 计算分配

CALM 的一个隐藏影响，是它让大家重新问：

是不是每个 token 都值得被同等对待、同等计算？

于是就会衍生出：

token-to-concept compression
adaptive compute allocation
token merging / token pruning
基于语义块的 selective processing

#这条线的重点

不一定追求替代 next-token generation
但会借 CALM 的思路，重新思考 token 的地位
更像把“语义块”当成资源分配单位

#为什么这条线重要

因为它连接到实际大模型部署里的一个核心问题：

推理成本
长上下文效率
计算预算分配

这比“纯理论上替代 token 自回归”更容易迅速形成工程影响。

#3.4 第四条线：跨模态连续序列建模

我觉得 CALM 真正可能发力的地方，甚至不一定首先是纯文本，而可能是：

motion
speech
video latent sequence
multimodal sequence

#为什么

因为这些模态本来就具备：

连续性更强
token 化更人为
chunk-level latent 更自然

文本因为离散性太强，反而最难。

所以像：

LLaMo 这种动作建模
语音建模工作
未来的视频 latent autoregression

都可能比纯文本更快吸收 CALM 的思想。

#4. CALM 之后，研究问题发生了什么变化

如果说 CALM 之前大家主要问的是：

怎么更快做 token 生成？
怎么更好做 speculative decoding？
怎么优化 KV cache？

那么 CALM 之后，一部分研究开始问的是：

#4.1 token 还是不是最基本单位？

这是最根本的问题。

#4.2 语言能不能先生成“语义块”，再展开为 token？

这其实更接近层级生成。

#4.3 连续 latent 空间是否更适合高带宽生成？

这是 CALM 的核心赌注。

#4.4 高层 chunk / context / concept 能否承担更多推理责任？

这会把语言模型往“规划—展开”结构推进。

#5. 我对 CALM 后续工作的总体判断

#5.1 它短期内不会直接推翻 next-token LLM

原因很简单：

token 自回归太成熟了
训练、评估、部署生态都围绕它建立
连续 latent 生成的稳定性和控制性仍有挑战

所以短期看，CALM 更像：

一个前沿研究刺激点
一个值得探索的替代范式
一个会影响邻近方向的问题设定者

而不是马上改朝换代。

#5.2 它真正的影响，可能先体现在“邻近思想扩散”

比如：

chunk-level modeling
context-level embeddings
token compression
hierarchical sequence modeling
multimodal continuous autoregression

也就是说，很多后续工作未必长得像 CALM，但会在核心问题意识上继承它：

提高每步语义带宽，降低 token 粒度束缚。

#5.3 它对未来最重要的贡献，可能不是某个具体算法，而是改了问题的问法

这个很重要。

CALM 最强的地方，也许不是“它已经给出最终答案”，而是它逼着大家重新问：

为什么语言模型要一步一个 token？
为什么上下文组织只能是平铺 token？
为什么高层语义单元不能成为建模对象？

这类问题一旦被打开，后面就会长出很多分支。

#6. 一个简短结论

如果一句话总结：

CALM 之后的工作，还处在“早期分叉”阶段。当前能看到的引用和相关方向主要集中在：连续自回归 token、上下文级/概念级表示、层级式序列建模，以及向动作、语音等连续模态扩展。

更直白一点说：

CALM 还没有形成一个像 Transformer 那样的大一统流派
但它已经清楚地推动了一个研究趋势：

从 token-level language modeling，走向 chunk-level / context-level / concept-level / latent-level sequence modeling。

这才是它现在最值得关注的地方。

#7. 后续如果继续深挖，建议怎么读

如果你打算继续沿这条线读文献，我建议按下面顺序：

#第一组：直接邻近论文

LLaMo
Context-level Language Modeling by Learning Predictive Context Embeddings
ConceptMoE

#第二组：方法论邻居

multi-token prediction
hierarchical language modeling
latent language modeling
non-autoregressive language modeling

#第三组：跨模态外延

speech latent sequence modeling
motion generation with continuous tokens
video latent autoregressive models

这样读下来，你会更容易看清：

哪些是 CALM 的直接延续
哪些只是共享“高层建模单位”思想
哪些可能最终比 CALM 本体更实用