#从 VLA 到 WAM:机器人基础模型的演化脉络、关键问题与下一步

#先给结论:VLA 和 WAM 的分歧,本质上不是“要不要语言”,而是“动作到底该怎么建模”

如果把这条技术线压缩成一句话,可以这样说:

VLA 试图把“看见 + 听懂 + 输出动作”直接统一成一个大模型;WAM 则进一步认为,机器人不仅要输出动作,还要在动作空间里显式建模世界演化与未来结果。

所以这条路线并不是简单的“VLA 被 WAM 替代”,而更像是:

  1. 先有通用机器人策略:从 RT-1、Octo 这类 generalist policy 开始,核心目标是跨任务、跨场景、跨机器人泛化。
  2. 再有 VLA:把视觉语言基础模型接到机器人控制里,希望把互联网尺度的语义知识迁移到动作生成。
  3. 然后暴露出 VLA 的瓶颈:尤其是动作 token 化、推理速度、闭环控制频率、长时程信用分配、鲁棒性与开放环境泛化。
  4. 于是走向 WAM:不再只把动作当“下一个 token”,而是把“动作如何改变未来观测”也纳入统一建模,试图把策略学习推进到带有世界模型的生成式行动框架。

如果你更关心一句最核心的判断,那就是:

VLA 的主要优点是把语义知识迁进机器人控制;VLA 的主要缺点是它通常仍然是“短视地直接产动作”。WAM 的核心动机,就是让模型不仅学会“该做什么动作”,还学会“这个动作会把世界带到哪里去”。

下面按发展脉络展开。


#一、VLA 之前:机器人基础模型先解决的是“通用策略”问题

在 VLA 出现之前,机器人学习已经在朝“通用策略”方向推进。

#1.1 RT-1:把多任务机器人控制做成可扩展 Transformer

代表工作: RT-1(Robotics Transformer for Real-World Control at Scale, 2022)

核心贡献: 用大规模真实机器人数据训练一个统一的 Transformer policy,证明机器人控制也存在“数据规模—模型容量—泛化能力”的扩展趋势。

RT-1 的历史地位很关键,因为它在做两件事:

  • 把“单任务单策略”推进到“多任务共享策略”;
  • 把机器人策略从小模型控制器推进到 foundation-style policy。

但 RT-1 仍然主要是机器人数据内生扩展

  • 它很强,但主要吸收的是机器人轨迹数据;
  • 它还没有真正把互联网尺度的语言与视觉知识接进控制闭环。

所以当时的核心问题变成了:

机器人能不能不仅从机器人演示中学,还能直接继承 VLM / LLM 的开放世界知识?

这就自然导向了 VLA。


#二、VLA 的诞生:让视觉语言基础模型直接输出机器人动作

#2.1 RT-2:VLA 路线的标志性起点

代表工作: RT-2(Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 2023)

RT-2 的关键想法很简单,但影响很大:

把机器人动作也写成 token,让视觉语言模型把动作当作一种“语言输出”来生成。

它做的不是把 VLM 放在规划层、再接一个独立控制器,而是直接把:

  • 视觉输入
  • 语言指令
  • 机器人动作

放进同一个自回归生成框架里。

这一步为什么重要?

因为它第一次比较系统地证明:

  • 互联网预训练得到的语义知识,确实可以迁移到机器人控制;
  • 机器人策略不只是 low-level motor primitive,也可以带有高层语义理解;
  • 模型可以表现出一些“超出机器人训练分布”的语义泛化,比如识别新物体、理解更抽象的语言约束、做初步的语义推断。

所以 VLA 的提出,本质上是在解决传统机器人策略的一个长期痛点:

机器人策略往往只会做训练集里出现过的动作模板,但不会“理解世界”。

VLA 试图把“理解世界”的能力,从互联网视觉语言预训练里借过来。


#三、VLA 的主流方法到底是什么

如果抽象地看,VLA 的主流方法大致可以概括成一句话:

以一个预训练好的视觉语言模型为骨架,把机器人控制问题改写成条件生成问题。

它通常包含下面几个核心部件。

#3.1 感知骨干:先用大规模预训练视觉模型做表征

典型做法是接入已经在互联网数据上学到强语义能力的视觉编码器,例如:

  • DINOv2
  • SigLIP
  • CLIP 类视觉 backbone

这样做的原因很直接:

  • 机器人数据太贵,不够大;
  • 单靠机器人数据训练视觉表征,很难获得开放世界泛化;
  • 互联网视觉预训练可以给机器人策略提供物体、场景、语义关系等先验。

#3.2 语言骨干:把任务指令放进 LLM/VLM token 空间

VLA 不再把语言当作一个额外标签,而是把语言当作核心条件变量。任务变成:

  • 给定图像 / 视频观测
  • 给定语言指令
  • 预测未来动作序列

这使得机器人可以执行更自然的命令,比如:

  • “把红色杯子放到数字 3 上面”
  • “拿最小的那个物体”
  • “把能当锤子的东西拿过来”

这就是 VLA 最吸引人的地方:它把语言理解和动作控制绑进了一个统一模型。

#3.3 动作表示:把连续控制离散化或 token 化

VLA 最有代表性的工程选择,是把动作也表示成 token 或离散符号序列。

这背后的考虑是:

  • 现成的 LLM / VLM 擅长 next-token prediction;
  • 如果把动作序列也表示成 token,就可以沿用自回归生成框架;
  • 这样能最大化复用大模型基础设施。

典型动作输出方式包括:

  1. 离散 binning:把连续动作量化成若干桶;
  2. tokenized action:把多维控制量编码成 token 序列;
  3. chunked action prediction:一次预测多个时间步的动作块,以减少控制频率瓶颈;
  4. parallel decoding / continuous regression:后续一些工作开始弱化严格的 token 自回归,转向并行预测和连续动作回归。

#3.4 训练范式:互联网知识预训练 + 机器人数据微调

VLA 通常不是从零训练,而是:

  1. 先拿一个大规模视觉语言基础模型;
  2. 再用机器人轨迹数据做 supervised fine-tuning;
  3. 让模型把语义理解映射到动作输出。

OpenVLA 就是这条路线的代表:它在开放数据和开源实现上把 VLA 真正推向了可复现、可微调、可部署的阶段。


#四、VLA 为什么会火:它到底解决了什么问题

VLA 之所以迅速成为 embodied foundation model 的主线之一,不是因为它“把几个模块拼起来了”,而是因为它确实解决了几个此前长期难解的问题。

#4.1 它把“语义泛化”第一次大规模带进机器人控制

传统 imitation policy 往往只能在:

  • 固定物体类别
  • 固定背景
  • 固定任务模板

里工作得很好。

VLA 的不同点在于,它可以借助互联网预训练获得:

  • 新物体识别能力
  • 更强语言跟随能力
  • 一定程度上的语义组合泛化

这使机器人控制第一次看起来像 foundation model,而不只是一个窄任务策略。

#4.2 它把机器人学习和大模型生态对齐了

VLA 的另一个重要意义是“范式统一”:

  • 用 token 表示输入输出;
  • 用 Transformer 做统一 backbone;
  • 用 next-token 或类似 generative objective 训练;
  • 用 LoRA、quantization、PEFT 等技术做适配。

这让机器人领域第一次可以大规模复用 LLM/VLM 社区的工程基础设施。

#4.3 它让“通用机器人策略”更像现实可行路径

在 RT-1 / Octo 阶段,大家已经看到 generalist policy 的潜力;VLA 的出现进一步强化了一个判断:

未来的机器人基础模型不一定要只靠机器人数据长大,它可以通过吸收互联网视觉语言知识变得更通用。

这直接改变了很多人对机器人 foundation model 的想象空间。


#五、VLA 的缺点是什么:它为什么不够

这部分是关键。

如果你问“VLA 最大的问题是什么”,我会给一个很明确的回答:

VLA 的根本问题不是它不懂语义,而是它通常仍然以“直接生成动作”为中心,缺少对世界演化的显式建模。

这会带出一串更具体的问题。

#5.1 动作 token 化其实很别扭

VLA 里最自然、也最尴尬的一点,就是把动作当 token。

问题在于,机器人动作和自然语言 token 在统计结构上非常不同:

  • 语言 token 是离散符号;
  • 机器人动作本质上是连续控制量;
  • 多维动作之间存在强耦合;
  • 控制里真正重要的是时间连续性和物理可执行性,而不是符号序列本身。

所以把动作离散化为 token,虽然复用了 LLM 框架,但也带来了明显副作用:

  • 量化误差;
  • 表征效率低;
  • 动作序列过长;
  • 高维控制不自然;
  • 很难兼顾精细控制与建模方便性。

换句话说:

VLA 的动作输出层,很多时候更像是“为了迁就语言模型接口”而设计,而不是为机器人控制本身最优设计。

#5.2 自回归解码速度太慢,不适合高频闭环控制

这是 VLA 最实在、最工程化的痛点。

许多早期或典型 VLA 是自回归地产生动作 token:

  • 一步一步往外吐;
  • token 越多,时延越大;
  • 控制频率容易掉到 3–5Hz 甚至更低。

而很多真实机器人任务,尤其是:

  • 双臂协作
  • 灵巧手操作
  • 接触密集 manipulation
  • 高频视觉伺服

往往需要 25Hz、50Hz 甚至更高的闭环控制。

于是就出现了非常明显的矛盾:

VLA 语义很强,但一到真实高频控制场景,推理延迟就成了瓶颈。

后来的 OpenVLA-OFT 等工作,其实就在解决这个问题:

  • 并行解码
  • 动作 chunking
  • 连续动作表示
  • L1 回归目标

这些改进某种意义上是在“修补”VLA 的动作生成机制。

#5.3 VLA 往往还是短视策略,不是真正的世界推演模型

虽然很多 VLA 能生成动作序列,但大多数 VLA 本质上仍然是:

  • 输入当前观测与指令
  • 直接输出接下来若干步动作

它并没有真正显式地回答:

  • 执行动作后,场景会如何变化?
  • 哪个动作会带来更好的未来状态?
  • 长时程失败是因为 perception 错了、action 错了,还是 subgoal 错了?

所以它更像“强条件策略”,而不是“显式世界模型”。

这会导致两个后果:

  1. 长时程任务更脆弱:误差一旦积累,模型不容易靠内部预测纠正;
  2. 泛化常常是表层的:它也许懂语义,但未必真正懂“动作—后果”的因果结构。

#5.4 VLA 对新机器人形态和新动作空间适配仍然不够优雅

虽然 OpenVLA、Octo 等工作已经展示了跨 embodiment 微调能力,但问题仍然存在:

  • 新机器人动作维度可能不同;
  • 传感器形式不同;
  • 控制频率不同;
  • 末端执行器差异巨大;
  • 任务目标与物理约束差别很大。

很多 VLA 仍然需要较强的 task-specific fine-tuning 才能落地。

也就是说,VLA 在“语言泛化”上很亮眼,但在“物理形态泛化”上并没有彻底解决问题。

#5.5 VLA 的鲁棒性和开放环境泛化仍然远未解决

VLA 的论文里经常强调 novel objects、semantic generalization、language grounding,但真实开放环境里还有一堆更难的问题:

  • 视角变化
  • 背景干扰
  • 遮挡
  • 光照变化
  • 动态环境
  • 分布外物理接触
  • 长尾故障恢复

很多时候,VLA 对“语义变化”是强的,但对“物理扰动”和“感知分布偏移”未必同样强。

这也是为什么后续会出现专门讨论 VLA 在 open-world robustness 上表现的工作。


#六、为什么会从 VLA 演进到 WAM

到这里,演进逻辑就很清楚了。

VLA 的成功告诉大家:

  • 语义先验很重要;
  • 大模型结构很重要;
  • 统一视觉—语言—动作建模是有前途的。

但 VLA 的缺点也越来越明显:

  • 直接产动作过于短视;
  • token 化动作不自然;
  • 自回归推理太慢;
  • 难以显式评估动作后果;
  • 长时程信用分配与规划不够清晰。

于是社区自然会问一个更进一步的问题:

既然视频生成和世界模型已经能预测未来视觉演化,那机器人能不能不只是“生成动作”,而是同时建模“动作导致的未来世界”?

这就是 WAM 的出发点。


#七、WAM 是什么:它的核心思想不是直接控制,而是“世界—动作联合建模”

这里的 WAM 一般指 World Action Model

它的核心思想可以概括为:

把机器人行动看作一个生成未来世界轨迹的过程,而不是只看作当前时刻的动作回归。

和典型 VLA 相比,WAM 更强调两件事:

  1. 动作不是孤立输出,而是驱动未来观测演化的变量;
  2. 好策略不只是“当前动作像专家”,而是“能把未来带到更好的状态”。

这其实让它更接近 model-based RL / world model 的思想,只不过:

  • 它面向的是 embodied foundation model 场景;
  • 它通常仍会保留视觉、语言、动作的统一建模;
  • 只是训练目标和生成对象,从“只预测动作”扩展为“世界—动作联合生成/建模”。

#八、WAM 相比 VLA,主要方法上变了什么

虽然不同 WAM 工作细节不一样,但大体上有几个共同变化。

#8.1 从“动作 token 生成”转向“未来轨迹建模”

VLA 常见形式是:

(o_t, instruction) -> a_t or a_{t:t+k}

WAM 更像:

(o_t, instruction, candidate action / latent action) -> future observations / future trajectory / future latent states

也就是说,模型不只是回答“下一步做什么”,还要回答“做了之后会发生什么”。

这个变化很关键,因为它把决策问题从 imitation 式条件匹配,往未来结果评估推进了一步。

#8.2 更强调视频/视觉未来预测,而不是只拟合专家动作

很多 WAM 路线会利用:

  • 视频生成
  • 未来帧预测
  • latent rollout
  • 多视角未来观测生成

来建模 action-conditioned future。

这样做的目的,是让机器人模型学到更强的“物理后果理解”:

  • 推一下杯子会往哪滑;
  • 抓取失败时画面会怎么变化;
  • 某个中间动作是否会导致遮挡、碰撞或物体脱手。

这和传统 VLA 的差别在于:

VLA 更像在学“专家此刻会怎么动”;WAM 更像在学“世界在动作作用下会如何变化”。

#8.3 更容易引入 planning / search / reranking

一旦模型能预测未来结果,就可以自然地做:

  • 多个候选动作序列采样;
  • 比较哪个未来更接近期望目标;
  • 对生成轨迹进行 reranking;
  • 在 latent space 里做规划或筛选。

所以 WAM 的价值不只是模型结构变化,而是:

它把“策略网络”重新打开成了“模型 + 评估 + 选择”的接口。

这对长时程任务尤其重要。

#8.4 更贴近动作中心的连续建模,而非纯 token 接口

一些 WAM 工作会强调:

  • 动作中心的建模方式;
  • 连续空间表达;
  • 更高效的 future rollout;
  • 把 video/world prediction 和 policy inference 联动起来。

这某种程度上是在摆脱早期 VLA 对“动作 token 化”的路径依赖。


#九、WAM 是如何解决 VLA 问题的

这是最关键的对照部分。

#9.1 针对 VLA 的“短视直接控”,WAM 用未来预测补上因果链

VLA 的一个根本问题是:

  • 它输出动作;
  • 但通常不显式建模动作后果。

WAM 的解决方式是:

  • 让动作与未来观测绑定;
  • 让训练目标直接包含 future consistency;
  • 让模型内部形成“动作—结果”耦合表征。

这样做的好处是:

  • 更有机会做长时程 credit assignment;
  • 更容易发现“看起来像专家动作,但未来结果很差”的情况;
  • 更适合做规划、修正和故障恢复。

#9.2 针对 VLA 的动作 token 不自然,WAM 倾向于更物理友好的动作建模

VLA 中“动作像词”这个设定,本来就有些牵强。

WAM 的改进方向通常是:

  • 让动作和未来状态演化一起建模;
  • 让动作成为连续控制过程的一部分,而不是单纯离散符号;
  • 更强调 action-conditioned dynamics,而不是 token-conditioned text generation。

这使动作表示更贴近机器人控制本体。

#9.3 针对 VLA 的低频推理瓶颈,WAM 倾向于 chunk / latent / parallel rollout

虽然 WAM 不一定天然更快,但它通常不会像经典自回归 VLA 那样强依赖逐 token 生成。

如果模型可以:

  • 一次 rollout 多步未来;
  • 在 latent world 里预测;
  • 并行评估候选动作块;

那么它在高频控制与长时程决策之间的平衡,理论上会比 token-by-token VLA 更好。

#9.4 针对 VLA 的泛化脆弱性,WAM 试图学更稳定的“动力学结构”

VLA 的泛化,很多时候更多依赖:

  • 语义先验;
  • 数据多样性;
  • instruction grounding。

WAM 额外引入了一个层次:

  • 学习世界在动作下如何变化;
  • 让泛化不仅依赖“认出物体”,还依赖“理解交互规律”。

这意味着,理论上它对物理层面的分布变化更有希望更稳。

当然,这是“更有希望”,不是已经彻底解决。


#十、WAM 又有哪些问题

WAM 并不是银弹。它虽然在理念上更完整,但也立刻带来一批新的难题。

#10.1 世界模型误差会积累,而且会直接误导决策

这是所有 world model 路线的经典问题。

一旦模型要预测未来,就会遇到:

  • rollout 越长,误差越大;
  • 预测出来的未来也许“看起来合理”,但不是物理真实未来;
  • planner 可能会利用模型漏洞,选中“在模型里很美、现实里会翻车”的动作。

所以 WAM 的核心风险是:

你引入了“看未来”的能力,也引入了“看错未来”的风险。

#10.2 高保真 future prediction 非常贵

如果 WAM 要预测:

  • 多帧未来图像
  • 多视角视频
  • 长时段 rollout
  • 高维接触交互

那计算成本和训练成本都会很高。

尤其在真实机器人数据本来就昂贵的情况下,WAM 比 VLA 更容易遇到:

  • 训练不稳定;
  • 数据不够;
  • 模型太重;
  • online deployment latency 太大。

#10.3 “预测得好”不等于“控制得好”

这是另一个常见陷阱。

一个模型可能很擅长:

  • 预测未来画面;
  • 生成看起来合理的视频;

但这并不自动意味着它能输出最优控制策略。

原因是控制要优化的是:

  • 成功率
  • 安全性
  • 可恢复性
  • 接触稳定性
  • 实时闭环性能

而不是单纯的像素预测误差。

也就是说:

WAM 需要回答的,不只是“能不能预测未来”,而是“这种未来建模能否真正转化成更好的行动”。

#10.4 真实世界的接触动力学很难学全

机器人 manipulation 最麻烦的,不是自由空间运动,而是:

  • 摩擦
  • 卡顿
  • 柔顺接触
  • 部分可观测
  • 被遮挡后的物体状态变化
  • 手爪与物体的非线性相互作用

这些东西往往很难仅通过视觉 future prediction 完整表达。

所以很多 WAM 当前可能更擅长:

  • 比较宏观的未来趋势建模;
  • 视觉显著变化预测;

但对高精度接触控制,仍然未必足够。

#10.5 安全与鲁棒性风险会被放大

当 WAM 具备更强生成与规划能力后,安全问题也会变得更突出:

  • 模型被诱导到危险 rollout;
  • 预测偏差导致高风险动作;
  • 开放环境下被 adversarial context 误导;
  • 未来如果和语言模型深度耦合,还会出现 instruction hijacking、unsafe planning 等问题。

近期已经开始有工作专门研究 WAM 的安全攻击与鲁棒性问题,这说明它的能力增强也带来了新的攻击面。


#十一、如何理解这条演化线:VLA 和 WAM 不是替代关系,而是层级递进

如果把 VLA 和 WAM 放在一个更高层框架里看,它们其实分别解决不同层的问题:

#VLA 更擅长解决:

  • 语言—视觉—动作统一接口;
  • 把互联网语义知识迁进机器人;
  • 通用 instruction following;
  • foundation-model 风格的策略初始化。

#WAM 更擅长解决:

  • 动作后果建模;
  • 长时程决策与规划;
  • 动力学一致性;
  • 利用 future rollout 做动作选择。

所以未来更合理的方向,很可能不是“只做 VLA”或者“只做 WAM”,而是:

把 VLA 的语义理解能力,和 WAM 的未来推演能力结合起来。

从这个角度看,WAM 更像是对 VLA 的一次“model-based 补全”。


#十二、我对这条路线的判断:WAM 的真正价值,不在于多一个名字,而在于把 embodied foundation model 从“会说会做”推进到“会预演会选择”

如果从更底层的研究问题来看,我觉得这条线最值得重视的不是具体命名,而是它暴露出的范式变化:

#12.1 VLA 的本质贡献:把机器人带进 foundation model 时代

它解决的是:

  • 怎么把大模型语义能力接到机器人上;
  • 怎么做统一的视觉—语言—动作接口;
  • 怎么让机器人具备更开放的 instruction grounding。

#12.2 WAM 的本质贡献:把机器人 foundation model 重新拉回“世界模型”主线

它解决的是:

  • 怎么让机器人不只是模仿动作,而是理解动作的后果;
  • 怎么让决策不只是 current-step imitation,而是 future-aware generation;
  • 怎么让规划、控制、预测重新统一起来。

这其实和你长期关心的方向是很一致的:

真正能打开下一阶段能力上限的,通常不是把一个接口做得更花,而是让模型更显式地建模环境、未来和信用分配。

在这个意义上,WAM 比单纯更大的 VLA 更像一个“范式往前挪一步”的信号。


#十三、当前阶段最值得继续追问的几个研究问题

如果把 VLA→WAM 看作一条尚未完成的演化线,我觉得接下来最关键的问题有这些:

#13.1 世界模型应该预测像素、latent,还是 task-relevant state?

预测太细:成本太高。

预测太粗:对控制没用。

这里会决定 WAM 到底是“好看的生成模型”还是“有用的控制模型”。

#13.2 如何把语义推理和物理推演真正结合起来?

VLA 强在语义,WAM 强在未来预测。

真正难的是:

  • 高层语言目标如何约束低层 rollout?
  • 物理未来如何反过来修正语义计划?

#13.3 如何在长时程任务中做稳定 credit assignment?

如果没有好的信用分配机制,WAM 也可能只是“会预测未来的 BC”。

真正的突破点,可能仍然会和:

  • model-based RL
  • latent planning
  • hierarchical control
  • self-improvement via imagined rollouts

深度结合。

#13.4 如何让 WAM 真正跨 embodiment 泛化?

如果世界模型仍然严重绑定某一类机器人、视角和动作空间,那它就还是一个大号 task-specific model,而不是真正的 embodied foundation model。


#十四、总结:VLA 的问题,催生了 WAM;但 WAM 不是终点

最后压成最短结论:

#VLA 的主要方法

  • 用预训练 VLM/LLM 做骨干;
  • 输入视觉观测和语言指令;
  • 直接生成离散化或 token 化动作;
  • 通过机器人轨迹微调得到通用策略。

#VLA 的主要缺点

  • 动作 token 化不自然;
  • 自回归解码慢,不适合高频控制;
  • 本质上偏短视,缺少显式未来推演;
  • 长时程任务、鲁棒性和跨 embodiment 泛化仍然不足。

#为什么会演进到 WAM

  • 因为大家开始意识到:光会“当前产动作”不够,机器人还需要理解“动作会把世界带到哪里去”。

#WAM 如何解决这些问题

  • 把动作与未来观测/未来状态联合建模;
  • 更强调世界演化与 action-conditioned dynamics;
  • 更适合做规划、候选动作评估与长时程决策;
  • 有机会绕开纯 token 自回归动作生成的瓶颈。

#WAM 的新问题

  • 世界模型误差积累;
  • 训练和推理成本高;
  • 预测好不等于控制好;
  • 接触动力学难学;
  • 安全和鲁棒性问题更复杂。

所以我会把这条技术线总结成一句话:

VLA 把机器人从“专用控制器”推进到“会看会懂会执行的基础模型”;WAM 则进一步试图把它推进到“会预演未来、会基于未来选择动作的基础模型”。

而真正的下一阶段,很可能不是单独更大的 VLA,也不是单独更重的 WAM,而是:

语义基础模型 + 世界模型 + 规划/强化学习 的真正统一。


#参考线索(按发展脉络)

  1. RT-1: Robotics Transformer for Real-World Control at Scale (2022)
  2. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
  3. Octo: An Open-Source Generalist Robot Policy (2024)
  4. OpenVLA: An Open-Source Vision-Language-Action Model (2024)
  5. OpenVLA-OFT: Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (2025)
  6. World Action Models are Zero-shot Policies (2026)
  7. GigaWorld-Policy: An Efficient Action-Centered World-Action Model (2026)
  8. Do World Action Models Generalize Better than VLAs? A Robustness Study (2026)