主题归档 2026-04-26 ★★★★★ robotics embodied-ai vla world-model wam survey

#从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

#先给结论：VLA 和 WAM 的分歧，本质上不是“要不要语言”，而是“动作到底该怎么建模”

如果把这条技术线压缩成一句话，可以这样说：

VLA 试图把“看见 + 听懂 + 输出动作”直接统一成一个大模型；WAM 则进一步认为，机器人不仅要输出动作，还要在动作空间里显式建模世界演化与未来结果。

所以这条路线并不是简单的“VLA 被 WAM 替代”，而更像是：

先有通用机器人策略：从 RT-1、Octo 这类 generalist policy 开始，核心目标是跨任务、跨场景、跨机器人泛化。
再有 VLA：把视觉语言基础模型接到机器人控制里，希望把互联网尺度的语义知识迁移到动作生成。
然后暴露出 VLA 的瓶颈：尤其是动作 token 化、推理速度、闭环控制频率、长时程信用分配、鲁棒性与开放环境泛化。
于是走向 WAM：不再只把动作当“下一个 token”，而是把“动作如何改变未来观测”也纳入统一建模，试图把策略学习推进到带有世界模型的生成式行动框架。

如果你更关心一句最核心的判断，那就是：

VLA 的主要优点是把语义知识迁进机器人控制；VLA 的主要缺点是它通常仍然是“短视地直接产动作”。WAM 的核心动机，就是让模型不仅学会“该做什么动作”，还学会“这个动作会把世界带到哪里去”。

下面按发展脉络展开。

#一、VLA 之前：机器人基础模型先解决的是“通用策略”问题

在 VLA 出现之前，机器人学习已经在朝“通用策略”方向推进。

#1.1 RT-1：把多任务机器人控制做成可扩展 Transformer

代表工作： RT-1（Robotics Transformer for Real-World Control at Scale, 2022）

核心贡献： 用大规模真实机器人数据训练一个统一的 Transformer policy，证明机器人控制也存在“数据规模—模型容量—泛化能力”的扩展趋势。

RT-1 的历史地位很关键，因为它在做两件事：

把“单任务单策略”推进到“多任务共享策略”；
把机器人策略从小模型控制器推进到 foundation-style policy。

但 RT-1 仍然主要是机器人数据内生扩展：

它很强，但主要吸收的是机器人轨迹数据；
它还没有真正把互联网尺度的语言与视觉知识接进控制闭环。

所以当时的核心问题变成了：

机器人能不能不仅从机器人演示中学，还能直接继承 VLM / LLM 的开放世界知识？

这就自然导向了 VLA。

#二、VLA 的诞生：让视觉语言基础模型直接输出机器人动作

#2.1 RT-2：VLA 路线的标志性起点

代表工作： RT-2（Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 2023）

RT-2 的关键想法很简单，但影响很大：

把机器人动作也写成 token，让视觉语言模型把动作当作一种“语言输出”来生成。

它做的不是把 VLM 放在规划层、再接一个独立控制器，而是直接把：

视觉输入
语言指令
机器人动作

放进同一个自回归生成框架里。

这一步为什么重要？

因为它第一次比较系统地证明：

互联网预训练得到的语义知识，确实可以迁移到机器人控制；
机器人策略不只是 low-level motor primitive，也可以带有高层语义理解；
模型可以表现出一些“超出机器人训练分布”的语义泛化，比如识别新物体、理解更抽象的语言约束、做初步的语义推断。

所以 VLA 的提出，本质上是在解决传统机器人策略的一个长期痛点：

机器人策略往往只会做训练集里出现过的动作模板，但不会“理解世界”。

VLA 试图把“理解世界”的能力，从互联网视觉语言预训练里借过来。

#三、VLA 的主流方法到底是什么

如果抽象地看，VLA 的主流方法大致可以概括成一句话：

以一个预训练好的视觉语言模型为骨架，把机器人控制问题改写成条件生成问题。

它通常包含下面几个核心部件。

#3.1 感知骨干：先用大规模预训练视觉模型做表征

典型做法是接入已经在互联网数据上学到强语义能力的视觉编码器，例如：

DINOv2
SigLIP
CLIP 类视觉 backbone

这样做的原因很直接：

机器人数据太贵，不够大；
单靠机器人数据训练视觉表征，很难获得开放世界泛化；
互联网视觉预训练可以给机器人策略提供物体、场景、语义关系等先验。

#3.2 语言骨干：把任务指令放进 LLM/VLM token 空间

VLA 不再把语言当作一个额外标签，而是把语言当作核心条件变量。任务变成：

给定图像 / 视频观测
给定语言指令
预测未来动作序列

这使得机器人可以执行更自然的命令，比如：

“把红色杯子放到数字 3 上面”
“拿最小的那个物体”
“把能当锤子的东西拿过来”

这就是 VLA 最吸引人的地方：它把语言理解和动作控制绑进了一个统一模型。

#3.3 动作表示：把连续控制离散化或 token 化

VLA 最有代表性的工程选择，是把动作也表示成 token 或离散符号序列。

这背后的考虑是：

现成的 LLM / VLM 擅长 next-token prediction；
如果把动作序列也表示成 token，就可以沿用自回归生成框架；
这样能最大化复用大模型基础设施。

典型动作输出方式包括：

离散 binning：把连续动作量化成若干桶；
tokenized action：把多维控制量编码成 token 序列；
chunked action prediction：一次预测多个时间步的动作块，以减少控制频率瓶颈；
parallel decoding / continuous regression：后续一些工作开始弱化严格的 token 自回归，转向并行预测和连续动作回归。

#3.4 训练范式：互联网知识预训练 + 机器人数据微调

VLA 通常不是从零训练，而是：

先拿一个大规模视觉语言基础模型；
再用机器人轨迹数据做 supervised fine-tuning；
让模型把语义理解映射到动作输出。

OpenVLA 就是这条路线的代表：它在开放数据和开源实现上把 VLA 真正推向了可复现、可微调、可部署的阶段。

#四、VLA 为什么会火：它到底解决了什么问题

VLA 之所以迅速成为 embodied foundation model 的主线之一，不是因为它“把几个模块拼起来了”，而是因为它确实解决了几个此前长期难解的问题。

#4.1 它把“语义泛化”第一次大规模带进机器人控制

传统 imitation policy 往往只能在：

固定物体类别
固定背景
固定任务模板

里工作得很好。

VLA 的不同点在于，它可以借助互联网预训练获得：

新物体识别能力
更强语言跟随能力
一定程度上的语义组合泛化

这使机器人控制第一次看起来像 foundation model，而不只是一个窄任务策略。

#4.2 它把机器人学习和大模型生态对齐了

VLA 的另一个重要意义是“范式统一”：

用 token 表示输入输出；
用 Transformer 做统一 backbone；
用 next-token 或类似 generative objective 训练；
用 LoRA、quantization、PEFT 等技术做适配。

这让机器人领域第一次可以大规模复用 LLM/VLM 社区的工程基础设施。

#4.3 它让“通用机器人策略”更像现实可行路径

在 RT-1 / Octo 阶段，大家已经看到 generalist policy 的潜力；VLA 的出现进一步强化了一个判断：

未来的机器人基础模型不一定要只靠机器人数据长大，它可以通过吸收互联网视觉语言知识变得更通用。

这直接改变了很多人对机器人 foundation model 的想象空间。

#五、VLA 的缺点是什么：它为什么不够

这部分是关键。

如果你问“VLA 最大的问题是什么”，我会给一个很明确的回答：

VLA 的根本问题不是它不懂语义，而是它通常仍然以“直接生成动作”为中心，缺少对世界演化的显式建模。

这会带出一串更具体的问题。

#5.1 动作 token 化其实很别扭

VLA 里最自然、也最尴尬的一点，就是把动作当 token。

问题在于，机器人动作和自然语言 token 在统计结构上非常不同：

语言 token 是离散符号；
机器人动作本质上是连续控制量；
多维动作之间存在强耦合；
控制里真正重要的是时间连续性和物理可执行性，而不是符号序列本身。

所以把动作离散化为 token，虽然复用了 LLM 框架，但也带来了明显副作用：

量化误差；
表征效率低；
动作序列过长；
高维控制不自然；
很难兼顾精细控制与建模方便性。

换句话说：

VLA 的动作输出层，很多时候更像是“为了迁就语言模型接口”而设计，而不是为机器人控制本身最优设计。

#5.2 自回归解码速度太慢，不适合高频闭环控制

这是 VLA 最实在、最工程化的痛点。

许多早期或典型 VLA 是自回归地产生动作 token：

一步一步往外吐；
token 越多，时延越大；
控制频率容易掉到 3–5Hz 甚至更低。

而很多真实机器人任务，尤其是：

双臂协作
灵巧手操作
接触密集 manipulation
高频视觉伺服

往往需要 25Hz、50Hz 甚至更高的闭环控制。

于是就出现了非常明显的矛盾：

VLA 语义很强，但一到真实高频控制场景，推理延迟就成了瓶颈。

后来的 OpenVLA-OFT 等工作，其实就在解决这个问题：

并行解码
动作 chunking
连续动作表示
L1 回归目标

这些改进某种意义上是在“修补”VLA 的动作生成机制。

#5.3 VLA 往往还是短视策略，不是真正的世界推演模型

虽然很多 VLA 能生成动作序列，但大多数 VLA 本质上仍然是：

输入当前观测与指令
直接输出接下来若干步动作

它并没有真正显式地回答：

执行动作后，场景会如何变化？
哪个动作会带来更好的未来状态？
长时程失败是因为 perception 错了、action 错了，还是 subgoal 错了？

所以它更像“强条件策略”，而不是“显式世界模型”。

这会导致两个后果：

长时程任务更脆弱：误差一旦积累，模型不容易靠内部预测纠正；
泛化常常是表层的：它也许懂语义，但未必真正懂“动作—后果”的因果结构。

#5.4 VLA 对新机器人形态和新动作空间适配仍然不够优雅

虽然 OpenVLA、Octo 等工作已经展示了跨 embodiment 微调能力，但问题仍然存在：

新机器人动作维度可能不同；
传感器形式不同；
控制频率不同；
末端执行器差异巨大；
任务目标与物理约束差别很大。

很多 VLA 仍然需要较强的 task-specific fine-tuning 才能落地。

也就是说，VLA 在“语言泛化”上很亮眼，但在“物理形态泛化”上并没有彻底解决问题。

#5.5 VLA 的鲁棒性和开放环境泛化仍然远未解决

VLA 的论文里经常强调 novel objects、semantic generalization、language grounding，但真实开放环境里还有一堆更难的问题：

视角变化
背景干扰
遮挡
光照变化
动态环境
分布外物理接触
长尾故障恢复

很多时候，VLA 对“语义变化”是强的，但对“物理扰动”和“感知分布偏移”未必同样强。

这也是为什么后续会出现专门讨论 VLA 在 open-world robustness 上表现的工作。

#六、为什么会从 VLA 演进到 WAM

到这里，演进逻辑就很清楚了。

VLA 的成功告诉大家：

语义先验很重要；
大模型结构很重要；
统一视觉—语言—动作建模是有前途的。

但 VLA 的缺点也越来越明显：

直接产动作过于短视；
token 化动作不自然；
自回归推理太慢；
难以显式评估动作后果；
长时程信用分配与规划不够清晰。

于是社区自然会问一个更进一步的问题：

既然视频生成和世界模型已经能预测未来视觉演化，那机器人能不能不只是“生成动作”，而是同时建模“动作导致的未来世界”？

这就是 WAM 的出发点。

#七、WAM 是什么：它的核心思想不是直接控制，而是“世界—动作联合建模”

这里的 WAM 一般指 World Action Model。

它的核心思想可以概括为：

把机器人行动看作一个生成未来世界轨迹的过程，而不是只看作当前时刻的动作回归。

和典型 VLA 相比，WAM 更强调两件事：

动作不是孤立输出，而是驱动未来观测演化的变量；
好策略不只是“当前动作像专家”，而是“能把未来带到更好的状态”。

这其实让它更接近 model-based RL / world model 的思想，只不过：

它面向的是 embodied foundation model 场景；
它通常仍会保留视觉、语言、动作的统一建模；
只是训练目标和生成对象，从“只预测动作”扩展为“世界—动作联合生成/建模”。

#八、WAM 相比 VLA，主要方法上变了什么

虽然不同 WAM 工作细节不一样，但大体上有几个共同变化。

#8.1 从“动作 token 生成”转向“未来轨迹建模”

VLA 常见形式是：

(o_t, instruction) -> a_t or a_{t:t+k}

WAM 更像：

(o_t, instruction, candidate action / latent action) -> future observations / future trajectory / future latent states

也就是说，模型不只是回答“下一步做什么”，还要回答“做了之后会发生什么”。

这个变化很关键，因为它把决策问题从 imitation 式条件匹配，往未来结果评估推进了一步。

#8.2 更强调视频/视觉未来预测，而不是只拟合专家动作

很多 WAM 路线会利用：

视频生成
未来帧预测
latent rollout
多视角未来观测生成

来建模 action-conditioned future。

这样做的目的，是让机器人模型学到更强的“物理后果理解”：

推一下杯子会往哪滑；
抓取失败时画面会怎么变化；
某个中间动作是否会导致遮挡、碰撞或物体脱手。

这和传统 VLA 的差别在于：

VLA 更像在学“专家此刻会怎么动”；WAM 更像在学“世界在动作作用下会如何变化”。

#8.3 更容易引入 planning / search / reranking

一旦模型能预测未来结果，就可以自然地做：

多个候选动作序列采样；
比较哪个未来更接近期望目标；
对生成轨迹进行 reranking；
在 latent space 里做规划或筛选。

所以 WAM 的价值不只是模型结构变化，而是：

它把“策略网络”重新打开成了“模型 + 评估 + 选择”的接口。

这对长时程任务尤其重要。

#8.4 更贴近动作中心的连续建模，而非纯 token 接口

一些 WAM 工作会强调：

动作中心的建模方式；
连续空间表达；
更高效的 future rollout；
把 video/world prediction 和 policy inference 联动起来。

这某种程度上是在摆脱早期 VLA 对“动作 token 化”的路径依赖。

#九、WAM 是如何解决 VLA 问题的

这是最关键的对照部分。

#9.1 针对 VLA 的“短视直接控”，WAM 用未来预测补上因果链

VLA 的一个根本问题是：

它输出动作；
但通常不显式建模动作后果。

WAM 的解决方式是：

让动作与未来观测绑定；
让训练目标直接包含 future consistency；
让模型内部形成“动作—结果”耦合表征。

这样做的好处是：

更有机会做长时程 credit assignment；
更容易发现“看起来像专家动作，但未来结果很差”的情况；
更适合做规划、修正和故障恢复。

#9.2 针对 VLA 的动作 token 不自然，WAM 倾向于更物理友好的动作建模

VLA 中“动作像词”这个设定，本来就有些牵强。

WAM 的改进方向通常是：

让动作和未来状态演化一起建模；
让动作成为连续控制过程的一部分，而不是单纯离散符号；
更强调 action-conditioned dynamics，而不是 token-conditioned text generation。

这使动作表示更贴近机器人控制本体。

#9.3 针对 VLA 的低频推理瓶颈，WAM 倾向于 chunk / latent / parallel rollout

虽然 WAM 不一定天然更快，但它通常不会像经典自回归 VLA 那样强依赖逐 token 生成。

如果模型可以：

一次 rollout 多步未来；
在 latent world 里预测；
并行评估候选动作块；

那么它在高频控制与长时程决策之间的平衡，理论上会比 token-by-token VLA 更好。

#9.4 针对 VLA 的泛化脆弱性，WAM 试图学更稳定的“动力学结构”

VLA 的泛化，很多时候更多依赖：

语义先验；
数据多样性；
instruction grounding。

WAM 额外引入了一个层次：

学习世界在动作下如何变化；
让泛化不仅依赖“认出物体”，还依赖“理解交互规律”。

这意味着，理论上它对物理层面的分布变化更有希望更稳。

当然，这是“更有希望”，不是已经彻底解决。

#十、WAM 又有哪些问题

WAM 并不是银弹。它虽然在理念上更完整，但也立刻带来一批新的难题。

#10.1 世界模型误差会积累，而且会直接误导决策

这是所有 world model 路线的经典问题。

一旦模型要预测未来，就会遇到：

rollout 越长，误差越大；
预测出来的未来也许“看起来合理”，但不是物理真实未来；
planner 可能会利用模型漏洞，选中“在模型里很美、现实里会翻车”的动作。

所以 WAM 的核心风险是：

你引入了“看未来”的能力，也引入了“看错未来”的风险。

#10.2 高保真 future prediction 非常贵

如果 WAM 要预测：

多帧未来图像
多视角视频
长时段 rollout
高维接触交互

那计算成本和训练成本都会很高。

尤其在真实机器人数据本来就昂贵的情况下，WAM 比 VLA 更容易遇到：

训练不稳定；
数据不够；
模型太重；
online deployment latency 太大。

#10.3 “预测得好”不等于“控制得好”

这是另一个常见陷阱。

一个模型可能很擅长：

预测未来画面；
生成看起来合理的视频；

但这并不自动意味着它能输出最优控制策略。

原因是控制要优化的是：

成功率
安全性
可恢复性
接触稳定性
实时闭环性能

而不是单纯的像素预测误差。

也就是说：

WAM 需要回答的，不只是“能不能预测未来”，而是“这种未来建模能否真正转化成更好的行动”。

#10.4 真实世界的接触动力学很难学全

机器人 manipulation 最麻烦的，不是自由空间运动，而是：

摩擦
卡顿
柔顺接触
部分可观测
被遮挡后的物体状态变化
手爪与物体的非线性相互作用

这些东西往往很难仅通过视觉 future prediction 完整表达。

所以很多 WAM 当前可能更擅长：

比较宏观的未来趋势建模；
视觉显著变化预测；

但对高精度接触控制，仍然未必足够。

#10.5 安全与鲁棒性风险会被放大

当 WAM 具备更强生成与规划能力后，安全问题也会变得更突出：

模型被诱导到危险 rollout；
预测偏差导致高风险动作；
开放环境下被 adversarial context 误导；
未来如果和语言模型深度耦合，还会出现 instruction hijacking、unsafe planning 等问题。

近期已经开始有工作专门研究 WAM 的安全攻击与鲁棒性问题，这说明它的能力增强也带来了新的攻击面。

#十一、如何理解这条演化线：VLA 和 WAM 不是替代关系，而是层级递进

如果把 VLA 和 WAM 放在一个更高层框架里看，它们其实分别解决不同层的问题：

#VLA 更擅长解决：

语言—视觉—动作统一接口；
把互联网语义知识迁进机器人；
通用 instruction following；
foundation-model 风格的策略初始化。

#WAM 更擅长解决：

动作后果建模；
长时程决策与规划；
动力学一致性；
利用 future rollout 做动作选择。

所以未来更合理的方向，很可能不是“只做 VLA”或者“只做 WAM”，而是：

把 VLA 的语义理解能力，和 WAM 的未来推演能力结合起来。

从这个角度看，WAM 更像是对 VLA 的一次“model-based 补全”。

#十二、我对这条路线的判断：WAM 的真正价值，不在于多一个名字，而在于把 embodied foundation model 从“会说会做”推进到“会预演会选择”

如果从更底层的研究问题来看，我觉得这条线最值得重视的不是具体命名，而是它暴露出的范式变化：

#12.1 VLA 的本质贡献：把机器人带进 foundation model 时代

它解决的是：

怎么把大模型语义能力接到机器人上；
怎么做统一的视觉—语言—动作接口；
怎么让机器人具备更开放的 instruction grounding。

#12.2 WAM 的本质贡献：把机器人 foundation model 重新拉回“世界模型”主线

它解决的是：

怎么让机器人不只是模仿动作，而是理解动作的后果；
怎么让决策不只是 current-step imitation，而是 future-aware generation；
怎么让规划、控制、预测重新统一起来。

这其实和你长期关心的方向是很一致的：

真正能打开下一阶段能力上限的，通常不是把一个接口做得更花，而是让模型更显式地建模环境、未来和信用分配。

在这个意义上，WAM 比单纯更大的 VLA 更像一个“范式往前挪一步”的信号。

#十三、当前阶段最值得继续追问的几个研究问题

如果把 VLA→WAM 看作一条尚未完成的演化线，我觉得接下来最关键的问题有这些：

#13.1 世界模型应该预测像素、latent，还是 task-relevant state？

预测太细：成本太高。

预测太粗：对控制没用。

这里会决定 WAM 到底是“好看的生成模型”还是“有用的控制模型”。

#13.2 如何把语义推理和物理推演真正结合起来？

VLA 强在语义，WAM 强在未来预测。

真正难的是：

高层语言目标如何约束低层 rollout？
物理未来如何反过来修正语义计划？

#13.3 如何在长时程任务中做稳定 credit assignment？

如果没有好的信用分配机制，WAM 也可能只是“会预测未来的 BC”。

真正的突破点，可能仍然会和：

model-based RL
latent planning
hierarchical control
self-improvement via imagined rollouts

深度结合。

#13.4 如何让 WAM 真正跨 embodiment 泛化？

如果世界模型仍然严重绑定某一类机器人、视角和动作空间，那它就还是一个大号 task-specific model，而不是真正的 embodied foundation model。

#十四、总结：VLA 的问题，催生了 WAM；但 WAM 不是终点

最后压成最短结论：

#VLA 的主要方法

用预训练 VLM/LLM 做骨干；
输入视觉观测和语言指令；
直接生成离散化或 token 化动作；
通过机器人轨迹微调得到通用策略。

#VLA 的主要缺点

动作 token 化不自然；
自回归解码慢，不适合高频控制；
本质上偏短视，缺少显式未来推演；
长时程任务、鲁棒性和跨 embodiment 泛化仍然不足。

#为什么会演进到 WAM

因为大家开始意识到：光会“当前产动作”不够，机器人还需要理解“动作会把世界带到哪里去”。

#WAM 如何解决这些问题

把动作与未来观测/未来状态联合建模；
更强调世界演化与 action-conditioned dynamics；
更适合做规划、候选动作评估与长时程决策；
有机会绕开纯 token 自回归动作生成的瓶颈。

#WAM 的新问题

世界模型误差积累；
训练和推理成本高；
预测好不等于控制好；
接触动力学难学；
安全和鲁棒性问题更复杂。

所以我会把这条技术线总结成一句话：

VLA 把机器人从“专用控制器”推进到“会看会懂会执行的基础模型”；WAM 则进一步试图把它推进到“会预演未来、会基于未来选择动作的基础模型”。

而真正的下一阶段，很可能不是单独更大的 VLA，也不是单独更重的 WAM，而是：

语义基础模型 + 世界模型 + 规划/强化学习 的真正统一。

#参考线索（按发展脉络）

RT-1: Robotics Transformer for Real-World Control at Scale (2022)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
Octo: An Open-Source Generalist Robot Policy (2024)
OpenVLA: An Open-Source Vision-Language-Action Model (2024)
OpenVLA-OFT: Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (2025)
World Action Models are Zero-shot Policies (2026)
GigaWorld-Policy: An Efficient Action-Centered World-Action Model (2026)
Do World Action Models Generalize Better than VLAs? A Robustness Study (2026)