#从 VLA 到 WAM:机器人基础模型的演化脉络、关键问题与下一步
#先给结论:VLA 和 WAM 的分歧,本质上不是“要不要语言”,而是“动作到底该怎么建模”
如果把这条技术线压缩成一句话,可以这样说:
VLA 试图把“看见 + 听懂 + 输出动作”直接统一成一个大模型;WAM 则进一步认为,机器人不仅要输出动作,还要在动作空间里显式建模世界演化与未来结果。
所以这条路线并不是简单的“VLA 被 WAM 替代”,而更像是:
- 先有通用机器人策略:从 RT-1、Octo 这类 generalist policy 开始,核心目标是跨任务、跨场景、跨机器人泛化。
- 再有 VLA:把视觉语言基础模型接到机器人控制里,希望把互联网尺度的语义知识迁移到动作生成。
- 然后暴露出 VLA 的瓶颈:尤其是动作 token 化、推理速度、闭环控制频率、长时程信用分配、鲁棒性与开放环境泛化。
- 于是走向 WAM:不再只把动作当“下一个 token”,而是把“动作如何改变未来观测”也纳入统一建模,试图把策略学习推进到带有世界模型的生成式行动框架。
如果你更关心一句最核心的判断,那就是:
VLA 的主要优点是把语义知识迁进机器人控制;VLA 的主要缺点是它通常仍然是“短视地直接产动作”。WAM 的核心动机,就是让模型不仅学会“该做什么动作”,还学会“这个动作会把世界带到哪里去”。
下面按发展脉络展开。
#一、VLA 之前:机器人基础模型先解决的是“通用策略”问题
在 VLA 出现之前,机器人学习已经在朝“通用策略”方向推进。
#1.1 RT-1:把多任务机器人控制做成可扩展 Transformer
代表工作: RT-1(Robotics Transformer for Real-World Control at Scale, 2022)
核心贡献: 用大规模真实机器人数据训练一个统一的 Transformer policy,证明机器人控制也存在“数据规模—模型容量—泛化能力”的扩展趋势。
RT-1 的历史地位很关键,因为它在做两件事:
- 把“单任务单策略”推进到“多任务共享策略”;
- 把机器人策略从小模型控制器推进到 foundation-style policy。
但 RT-1 仍然主要是机器人数据内生扩展:
- 它很强,但主要吸收的是机器人轨迹数据;
- 它还没有真正把互联网尺度的语言与视觉知识接进控制闭环。
所以当时的核心问题变成了:
机器人能不能不仅从机器人演示中学,还能直接继承 VLM / LLM 的开放世界知识?
这就自然导向了 VLA。
#二、VLA 的诞生:让视觉语言基础模型直接输出机器人动作
#2.1 RT-2:VLA 路线的标志性起点
代表工作: RT-2(Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 2023)
RT-2 的关键想法很简单,但影响很大:
把机器人动作也写成 token,让视觉语言模型把动作当作一种“语言输出”来生成。
它做的不是把 VLM 放在规划层、再接一个独立控制器,而是直接把:
- 视觉输入
- 语言指令
- 机器人动作
放进同一个自回归生成框架里。
这一步为什么重要?
因为它第一次比较系统地证明:
- 互联网预训练得到的语义知识,确实可以迁移到机器人控制;
- 机器人策略不只是 low-level motor primitive,也可以带有高层语义理解;
- 模型可以表现出一些“超出机器人训练分布”的语义泛化,比如识别新物体、理解更抽象的语言约束、做初步的语义推断。
所以 VLA 的提出,本质上是在解决传统机器人策略的一个长期痛点:
机器人策略往往只会做训练集里出现过的动作模板,但不会“理解世界”。
VLA 试图把“理解世界”的能力,从互联网视觉语言预训练里借过来。
#三、VLA 的主流方法到底是什么
如果抽象地看,VLA 的主流方法大致可以概括成一句话:
以一个预训练好的视觉语言模型为骨架,把机器人控制问题改写成条件生成问题。
它通常包含下面几个核心部件。
#3.1 感知骨干:先用大规模预训练视觉模型做表征
典型做法是接入已经在互联网数据上学到强语义能力的视觉编码器,例如:
- DINOv2
- SigLIP
- CLIP 类视觉 backbone
这样做的原因很直接:
- 机器人数据太贵,不够大;
- 单靠机器人数据训练视觉表征,很难获得开放世界泛化;
- 互联网视觉预训练可以给机器人策略提供物体、场景、语义关系等先验。
#3.2 语言骨干:把任务指令放进 LLM/VLM token 空间
VLA 不再把语言当作一个额外标签,而是把语言当作核心条件变量。任务变成:
- 给定图像 / 视频观测
- 给定语言指令
- 预测未来动作序列
这使得机器人可以执行更自然的命令,比如:
- “把红色杯子放到数字 3 上面”
- “拿最小的那个物体”
- “把能当锤子的东西拿过来”
这就是 VLA 最吸引人的地方:它把语言理解和动作控制绑进了一个统一模型。
#3.3 动作表示:把连续控制离散化或 token 化
VLA 最有代表性的工程选择,是把动作也表示成 token 或离散符号序列。
这背后的考虑是:
- 现成的 LLM / VLM 擅长 next-token prediction;
- 如果把动作序列也表示成 token,就可以沿用自回归生成框架;
- 这样能最大化复用大模型基础设施。
典型动作输出方式包括:
- 离散 binning:把连续动作量化成若干桶;
- tokenized action:把多维控制量编码成 token 序列;
- chunked action prediction:一次预测多个时间步的动作块,以减少控制频率瓶颈;
- parallel decoding / continuous regression:后续一些工作开始弱化严格的 token 自回归,转向并行预测和连续动作回归。
#3.4 训练范式:互联网知识预训练 + 机器人数据微调
VLA 通常不是从零训练,而是:
- 先拿一个大规模视觉语言基础模型;
- 再用机器人轨迹数据做 supervised fine-tuning;
- 让模型把语义理解映射到动作输出。
OpenVLA 就是这条路线的代表:它在开放数据和开源实现上把 VLA 真正推向了可复现、可微调、可部署的阶段。
#四、VLA 为什么会火:它到底解决了什么问题
VLA 之所以迅速成为 embodied foundation model 的主线之一,不是因为它“把几个模块拼起来了”,而是因为它确实解决了几个此前长期难解的问题。
#4.1 它把“语义泛化”第一次大规模带进机器人控制
传统 imitation policy 往往只能在:
- 固定物体类别
- 固定背景
- 固定任务模板
里工作得很好。
VLA 的不同点在于,它可以借助互联网预训练获得:
- 新物体识别能力
- 更强语言跟随能力
- 一定程度上的语义组合泛化
这使机器人控制第一次看起来像 foundation model,而不只是一个窄任务策略。
#4.2 它把机器人学习和大模型生态对齐了
VLA 的另一个重要意义是“范式统一”:
- 用 token 表示输入输出;
- 用 Transformer 做统一 backbone;
- 用 next-token 或类似 generative objective 训练;
- 用 LoRA、quantization、PEFT 等技术做适配。
这让机器人领域第一次可以大规模复用 LLM/VLM 社区的工程基础设施。
#4.3 它让“通用机器人策略”更像现实可行路径
在 RT-1 / Octo 阶段,大家已经看到 generalist policy 的潜力;VLA 的出现进一步强化了一个判断:
未来的机器人基础模型不一定要只靠机器人数据长大,它可以通过吸收互联网视觉语言知识变得更通用。
这直接改变了很多人对机器人 foundation model 的想象空间。
#五、VLA 的缺点是什么:它为什么不够
这部分是关键。
如果你问“VLA 最大的问题是什么”,我会给一个很明确的回答:
VLA 的根本问题不是它不懂语义,而是它通常仍然以“直接生成动作”为中心,缺少对世界演化的显式建模。
这会带出一串更具体的问题。
#5.1 动作 token 化其实很别扭
VLA 里最自然、也最尴尬的一点,就是把动作当 token。
问题在于,机器人动作和自然语言 token 在统计结构上非常不同:
- 语言 token 是离散符号;
- 机器人动作本质上是连续控制量;
- 多维动作之间存在强耦合;
- 控制里真正重要的是时间连续性和物理可执行性,而不是符号序列本身。
所以把动作离散化为 token,虽然复用了 LLM 框架,但也带来了明显副作用:
- 量化误差;
- 表征效率低;
- 动作序列过长;
- 高维控制不自然;
- 很难兼顾精细控制与建模方便性。
换句话说:
VLA 的动作输出层,很多时候更像是“为了迁就语言模型接口”而设计,而不是为机器人控制本身最优设计。
#5.2 自回归解码速度太慢,不适合高频闭环控制
这是 VLA 最实在、最工程化的痛点。
许多早期或典型 VLA 是自回归地产生动作 token:
- 一步一步往外吐;
- token 越多,时延越大;
- 控制频率容易掉到 3–5Hz 甚至更低。
而很多真实机器人任务,尤其是:
- 双臂协作
- 灵巧手操作
- 接触密集 manipulation
- 高频视觉伺服
往往需要 25Hz、50Hz 甚至更高的闭环控制。
于是就出现了非常明显的矛盾:
VLA 语义很强,但一到真实高频控制场景,推理延迟就成了瓶颈。
后来的 OpenVLA-OFT 等工作,其实就在解决这个问题:
- 并行解码
- 动作 chunking
- 连续动作表示
- L1 回归目标
这些改进某种意义上是在“修补”VLA 的动作生成机制。
#5.3 VLA 往往还是短视策略,不是真正的世界推演模型
虽然很多 VLA 能生成动作序列,但大多数 VLA 本质上仍然是:
- 输入当前观测与指令
- 直接输出接下来若干步动作
它并没有真正显式地回答:
- 执行动作后,场景会如何变化?
- 哪个动作会带来更好的未来状态?
- 长时程失败是因为 perception 错了、action 错了,还是 subgoal 错了?
所以它更像“强条件策略”,而不是“显式世界模型”。
这会导致两个后果:
- 长时程任务更脆弱:误差一旦积累,模型不容易靠内部预测纠正;
- 泛化常常是表层的:它也许懂语义,但未必真正懂“动作—后果”的因果结构。
#5.4 VLA 对新机器人形态和新动作空间适配仍然不够优雅
虽然 OpenVLA、Octo 等工作已经展示了跨 embodiment 微调能力,但问题仍然存在:
- 新机器人动作维度可能不同;
- 传感器形式不同;
- 控制频率不同;
- 末端执行器差异巨大;
- 任务目标与物理约束差别很大。
很多 VLA 仍然需要较强的 task-specific fine-tuning 才能落地。
也就是说,VLA 在“语言泛化”上很亮眼,但在“物理形态泛化”上并没有彻底解决问题。
#5.5 VLA 的鲁棒性和开放环境泛化仍然远未解决
VLA 的论文里经常强调 novel objects、semantic generalization、language grounding,但真实开放环境里还有一堆更难的问题:
- 视角变化
- 背景干扰
- 遮挡
- 光照变化
- 动态环境
- 分布外物理接触
- 长尾故障恢复
很多时候,VLA 对“语义变化”是强的,但对“物理扰动”和“感知分布偏移”未必同样强。
这也是为什么后续会出现专门讨论 VLA 在 open-world robustness 上表现的工作。
#六、为什么会从 VLA 演进到 WAM
到这里,演进逻辑就很清楚了。
VLA 的成功告诉大家:
- 语义先验很重要;
- 大模型结构很重要;
- 统一视觉—语言—动作建模是有前途的。
但 VLA 的缺点也越来越明显:
- 直接产动作过于短视;
- token 化动作不自然;
- 自回归推理太慢;
- 难以显式评估动作后果;
- 长时程信用分配与规划不够清晰。
于是社区自然会问一个更进一步的问题:
既然视频生成和世界模型已经能预测未来视觉演化,那机器人能不能不只是“生成动作”,而是同时建模“动作导致的未来世界”?
这就是 WAM 的出发点。
#七、WAM 是什么:它的核心思想不是直接控制,而是“世界—动作联合建模”
这里的 WAM 一般指 World Action Model。
它的核心思想可以概括为:
把机器人行动看作一个生成未来世界轨迹的过程,而不是只看作当前时刻的动作回归。
和典型 VLA 相比,WAM 更强调两件事:
- 动作不是孤立输出,而是驱动未来观测演化的变量;
- 好策略不只是“当前动作像专家”,而是“能把未来带到更好的状态”。
这其实让它更接近 model-based RL / world model 的思想,只不过:
- 它面向的是 embodied foundation model 场景;
- 它通常仍会保留视觉、语言、动作的统一建模;
- 只是训练目标和生成对象,从“只预测动作”扩展为“世界—动作联合生成/建模”。
#八、WAM 相比 VLA,主要方法上变了什么
虽然不同 WAM 工作细节不一样,但大体上有几个共同变化。
#8.1 从“动作 token 生成”转向“未来轨迹建模”
VLA 常见形式是:
(o_t, instruction) -> a_t or a_{t:t+k}
WAM 更像:
(o_t, instruction, candidate action / latent action) -> future observations / future trajectory / future latent states
也就是说,模型不只是回答“下一步做什么”,还要回答“做了之后会发生什么”。
这个变化很关键,因为它把决策问题从 imitation 式条件匹配,往未来结果评估推进了一步。
#8.2 更强调视频/视觉未来预测,而不是只拟合专家动作
很多 WAM 路线会利用:
- 视频生成
- 未来帧预测
- latent rollout
- 多视角未来观测生成
来建模 action-conditioned future。
这样做的目的,是让机器人模型学到更强的“物理后果理解”:
- 推一下杯子会往哪滑;
- 抓取失败时画面会怎么变化;
- 某个中间动作是否会导致遮挡、碰撞或物体脱手。
这和传统 VLA 的差别在于:
VLA 更像在学“专家此刻会怎么动”;WAM 更像在学“世界在动作作用下会如何变化”。
#8.3 更容易引入 planning / search / reranking
一旦模型能预测未来结果,就可以自然地做:
- 多个候选动作序列采样;
- 比较哪个未来更接近期望目标;
- 对生成轨迹进行 reranking;
- 在 latent space 里做规划或筛选。
所以 WAM 的价值不只是模型结构变化,而是:
它把“策略网络”重新打开成了“模型 + 评估 + 选择”的接口。
这对长时程任务尤其重要。
#8.4 更贴近动作中心的连续建模,而非纯 token 接口
一些 WAM 工作会强调:
- 动作中心的建模方式;
- 连续空间表达;
- 更高效的 future rollout;
- 把 video/world prediction 和 policy inference 联动起来。
这某种程度上是在摆脱早期 VLA 对“动作 token 化”的路径依赖。
#九、WAM 是如何解决 VLA 问题的
这是最关键的对照部分。
#9.1 针对 VLA 的“短视直接控”,WAM 用未来预测补上因果链
VLA 的一个根本问题是:
- 它输出动作;
- 但通常不显式建模动作后果。
WAM 的解决方式是:
- 让动作与未来观测绑定;
- 让训练目标直接包含 future consistency;
- 让模型内部形成“动作—结果”耦合表征。
这样做的好处是:
- 更有机会做长时程 credit assignment;
- 更容易发现“看起来像专家动作,但未来结果很差”的情况;
- 更适合做规划、修正和故障恢复。
#9.2 针对 VLA 的动作 token 不自然,WAM 倾向于更物理友好的动作建模
VLA 中“动作像词”这个设定,本来就有些牵强。
WAM 的改进方向通常是:
- 让动作和未来状态演化一起建模;
- 让动作成为连续控制过程的一部分,而不是单纯离散符号;
- 更强调 action-conditioned dynamics,而不是 token-conditioned text generation。
这使动作表示更贴近机器人控制本体。
#9.3 针对 VLA 的低频推理瓶颈,WAM 倾向于 chunk / latent / parallel rollout
虽然 WAM 不一定天然更快,但它通常不会像经典自回归 VLA 那样强依赖逐 token 生成。
如果模型可以:
- 一次 rollout 多步未来;
- 在 latent world 里预测;
- 并行评估候选动作块;
那么它在高频控制与长时程决策之间的平衡,理论上会比 token-by-token VLA 更好。
#9.4 针对 VLA 的泛化脆弱性,WAM 试图学更稳定的“动力学结构”
VLA 的泛化,很多时候更多依赖:
- 语义先验;
- 数据多样性;
- instruction grounding。
WAM 额外引入了一个层次:
- 学习世界在动作下如何变化;
- 让泛化不仅依赖“认出物体”,还依赖“理解交互规律”。
这意味着,理论上它对物理层面的分布变化更有希望更稳。
当然,这是“更有希望”,不是已经彻底解决。
#十、WAM 又有哪些问题
WAM 并不是银弹。它虽然在理念上更完整,但也立刻带来一批新的难题。
#10.1 世界模型误差会积累,而且会直接误导决策
这是所有 world model 路线的经典问题。
一旦模型要预测未来,就会遇到:
- rollout 越长,误差越大;
- 预测出来的未来也许“看起来合理”,但不是物理真实未来;
- planner 可能会利用模型漏洞,选中“在模型里很美、现实里会翻车”的动作。
所以 WAM 的核心风险是:
你引入了“看未来”的能力,也引入了“看错未来”的风险。
#10.2 高保真 future prediction 非常贵
如果 WAM 要预测:
- 多帧未来图像
- 多视角视频
- 长时段 rollout
- 高维接触交互
那计算成本和训练成本都会很高。
尤其在真实机器人数据本来就昂贵的情况下,WAM 比 VLA 更容易遇到:
- 训练不稳定;
- 数据不够;
- 模型太重;
- online deployment latency 太大。
#10.3 “预测得好”不等于“控制得好”
这是另一个常见陷阱。
一个模型可能很擅长:
- 预测未来画面;
- 生成看起来合理的视频;
但这并不自动意味着它能输出最优控制策略。
原因是控制要优化的是:
- 成功率
- 安全性
- 可恢复性
- 接触稳定性
- 实时闭环性能
而不是单纯的像素预测误差。
也就是说:
WAM 需要回答的,不只是“能不能预测未来”,而是“这种未来建模能否真正转化成更好的行动”。
#10.4 真实世界的接触动力学很难学全
机器人 manipulation 最麻烦的,不是自由空间运动,而是:
- 摩擦
- 卡顿
- 柔顺接触
- 部分可观测
- 被遮挡后的物体状态变化
- 手爪与物体的非线性相互作用
这些东西往往很难仅通过视觉 future prediction 完整表达。
所以很多 WAM 当前可能更擅长:
- 比较宏观的未来趋势建模;
- 视觉显著变化预测;
但对高精度接触控制,仍然未必足够。
#10.5 安全与鲁棒性风险会被放大
当 WAM 具备更强生成与规划能力后,安全问题也会变得更突出:
- 模型被诱导到危险 rollout;
- 预测偏差导致高风险动作;
- 开放环境下被 adversarial context 误导;
- 未来如果和语言模型深度耦合,还会出现 instruction hijacking、unsafe planning 等问题。
近期已经开始有工作专门研究 WAM 的安全攻击与鲁棒性问题,这说明它的能力增强也带来了新的攻击面。
#十一、如何理解这条演化线:VLA 和 WAM 不是替代关系,而是层级递进
如果把 VLA 和 WAM 放在一个更高层框架里看,它们其实分别解决不同层的问题:
#VLA 更擅长解决:
- 语言—视觉—动作统一接口;
- 把互联网语义知识迁进机器人;
- 通用 instruction following;
- foundation-model 风格的策略初始化。
#WAM 更擅长解决:
- 动作后果建模;
- 长时程决策与规划;
- 动力学一致性;
- 利用 future rollout 做动作选择。
所以未来更合理的方向,很可能不是“只做 VLA”或者“只做 WAM”,而是:
把 VLA 的语义理解能力,和 WAM 的未来推演能力结合起来。
从这个角度看,WAM 更像是对 VLA 的一次“model-based 补全”。
#十二、我对这条路线的判断:WAM 的真正价值,不在于多一个名字,而在于把 embodied foundation model 从“会说会做”推进到“会预演会选择”
如果从更底层的研究问题来看,我觉得这条线最值得重视的不是具体命名,而是它暴露出的范式变化:
#12.1 VLA 的本质贡献:把机器人带进 foundation model 时代
它解决的是:
- 怎么把大模型语义能力接到机器人上;
- 怎么做统一的视觉—语言—动作接口;
- 怎么让机器人具备更开放的 instruction grounding。
#12.2 WAM 的本质贡献:把机器人 foundation model 重新拉回“世界模型”主线
它解决的是:
- 怎么让机器人不只是模仿动作,而是理解动作的后果;
- 怎么让决策不只是 current-step imitation,而是 future-aware generation;
- 怎么让规划、控制、预测重新统一起来。
这其实和你长期关心的方向是很一致的:
真正能打开下一阶段能力上限的,通常不是把一个接口做得更花,而是让模型更显式地建模环境、未来和信用分配。
在这个意义上,WAM 比单纯更大的 VLA 更像一个“范式往前挪一步”的信号。
#十三、当前阶段最值得继续追问的几个研究问题
如果把 VLA→WAM 看作一条尚未完成的演化线,我觉得接下来最关键的问题有这些:
#13.1 世界模型应该预测像素、latent,还是 task-relevant state?
预测太细:成本太高。
预测太粗:对控制没用。
这里会决定 WAM 到底是“好看的生成模型”还是“有用的控制模型”。
#13.2 如何把语义推理和物理推演真正结合起来?
VLA 强在语义,WAM 强在未来预测。
真正难的是:
- 高层语言目标如何约束低层 rollout?
- 物理未来如何反过来修正语义计划?
#13.3 如何在长时程任务中做稳定 credit assignment?
如果没有好的信用分配机制,WAM 也可能只是“会预测未来的 BC”。
真正的突破点,可能仍然会和:
- model-based RL
- latent planning
- hierarchical control
- self-improvement via imagined rollouts
深度结合。
#13.4 如何让 WAM 真正跨 embodiment 泛化?
如果世界模型仍然严重绑定某一类机器人、视角和动作空间,那它就还是一个大号 task-specific model,而不是真正的 embodied foundation model。
#十四、总结:VLA 的问题,催生了 WAM;但 WAM 不是终点
最后压成最短结论:
#VLA 的主要方法
- 用预训练 VLM/LLM 做骨干;
- 输入视觉观测和语言指令;
- 直接生成离散化或 token 化动作;
- 通过机器人轨迹微调得到通用策略。
#VLA 的主要缺点
- 动作 token 化不自然;
- 自回归解码慢,不适合高频控制;
- 本质上偏短视,缺少显式未来推演;
- 长时程任务、鲁棒性和跨 embodiment 泛化仍然不足。
#为什么会演进到 WAM
- 因为大家开始意识到:光会“当前产动作”不够,机器人还需要理解“动作会把世界带到哪里去”。
#WAM 如何解决这些问题
- 把动作与未来观测/未来状态联合建模;
- 更强调世界演化与 action-conditioned dynamics;
- 更适合做规划、候选动作评估与长时程决策;
- 有机会绕开纯 token 自回归动作生成的瓶颈。
#WAM 的新问题
- 世界模型误差积累;
- 训练和推理成本高;
- 预测好不等于控制好;
- 接触动力学难学;
- 安全和鲁棒性问题更复杂。
所以我会把这条技术线总结成一句话:
VLA 把机器人从“专用控制器”推进到“会看会懂会执行的基础模型”;WAM 则进一步试图把它推进到“会预演未来、会基于未来选择动作的基础模型”。
而真正的下一阶段,很可能不是单独更大的 VLA,也不是单独更重的 WAM,而是:
语义基础模型 + 世界模型 + 规划/强化学习 的真正统一。
#参考线索(按发展脉络)
- RT-1: Robotics Transformer for Real-World Control at Scale (2022)
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
- Octo: An Open-Source Generalist Robot Policy (2024)
- OpenVLA: An Open-Source Vision-Language-Action Model (2024)
- OpenVLA-OFT: Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success (2025)
- World Action Models are Zero-shot Policies (2026)
- GigaWorld-Policy: An Efficient Action-Centered World-Action Model (2026)
- Do World Action Models Generalize Better than VLAs? A Robustness Study (2026)