主题归档 2026-04-25 ★★★★★ embodied-ai robotics imitation-learning reinforcement-learning VLA survey

#具身智能发展脉络全景梳理：从控制与感知到机器人基础模型

#先给结论：具身智能到底在发展什么

如果把具身智能这几年的进展压成一句话，那就是：

这个方向一直在试图把“会感知、会决策、会操作”的智能，从纯软件系统，变成能在真实物理世界里闭环行动的系统。

所以具身智能不是单一技术，而是一个长期交汇点。它把下面这些东西不断往一起拧：

感知
控制
规划
学习
世界模型
语言理解
真实机器人系统工程

而且它的发展逻辑非常清楚：

先解决“机器人怎么动” —— 控制、动力学、状态估计、规划
再解决“机器人怎么学会动” —— 强化学习、模仿学习、sim2real
再解决“机器人怎么在复杂开放环境中泛化” —— 数据集、预训练、视觉语言模型、跨任务迁移
最后走向“机器人基础模型” —— 通用操作策略、VLA、跨机器人共享经验、语言驱动操作

所以具身智能的核心，不是“给 LLM 接个机械臂”这么简单。

它真正难的地方在于：

智能必须被放进物理世界里接受约束。

在这个世界里，错误会累积、接触是非光滑的、感知有噪声、任务稀疏、动作连续、数据昂贵、硬件各不相同。

也正因为如此，具身智能的发展速度一直取决于两件事：

算法到底能不能顶住物理世界的不确定性
系统工程到底能不能把大模型能力落到真实机器人上

下面按发展脉络展开。

#一、深度学习接管之前：具身智能原本是“机器人学问题”

在深度学习和大模型进入之前，具身智能本质上主要是传统机器人学的话题。

那个阶段的核心任务是：

机械臂运动学 / 动力学建模
路径规划
状态估计
视觉定位与抓取
反馈控制
接触与力控制

这个阶段的方法很强，但有个根本问题：

#它们高度依赖人工建模和任务拆解

也就是说，系统往往需要研究者手工指定：

状态表示
中间子任务
目标函数
控制结构
环境假设

这类方法在结构明确、环境已知的任务里很有效，但一旦进入：

非结构化环境
复杂抓取
长时序任务
家居场景
开放语义指令

就会迅速遇到瓶颈。

所以后面整个领域开始往学习型方法迁移，本质上是在解决：

机器人能不能少依赖人工规则，直接从数据中学到感知-决策-动作映射？

#二、第一阶段：深度强化学习把“会控制”推向“会学控制”

现代具身智能的第一波拐点，其实来自深度强化学习。

#经典工作 1：DDPG（2015）

论文： Continuous control with deep reinforcement learning

链接： https://arxiv.org/abs/1509.02971

#它之前的问题是什么

深度学习在离散动作任务里已经很亮眼，但机器人控制的核心问题是：

动作空间往往是连续的
机械臂和移动机器人都不是按几个离散按钮来操作
高维控制任务很难直接套 DQN 那套思路

#DDPG 在解决什么

DDPG 解决的是：

深度强化学习能不能进入连续控制领域。

它把 deterministic policy gradient 和深度网络结合起来，让模型能处理高维连续动作控制，还展示了端到端从像素到动作的可能性。

#它的历史地位

这篇工作今天看未必是最稳定的算法，但它极其关键，因为它告诉整个社区：

机器人控制可以用深度 RL 做
连续控制是可学的
感知与控制端到端连接是有希望的

这相当于把“深度 RL for robotics”这条路正式打开。

#三、第二阶段：从“会学”到“能训练起来”——基准、样本效率与稳定性

只会在几个 toy task 上学起来不够。具身智能真正困难的是：

训练不稳定
需要大量交互数据
很难比较算法谁更有效
真实机器人试错成本太高

所以接下来领域开始补基础设施。

#经典工作 2：DeepMind Control Suite（2018）

论文： DeepMind Control Suite

链接： https://arxiv.org/abs/1801.00690

#它之前的问题是什么

在这之前，连续控制实验环境比较碎，任务设置也不统一。

这就导致：

很难系统比较算法
benchmark 不稳定
结果复现麻烦
社区优化速度慢

#它在解决什么

它解决的是：

具身智能 / 连续控制研究能不能有一个统一、可解释、可复现的实验场。

#为什么重要

它不是在提升某个算法，而是在建立一个公共地基。

没有统一 benchmark，后面的 SAC、Dreamer、各种 policy learning 方法其实都很难稳定迭代。

它对具身智能的作用，和 ImageNet / GLUE / MMLU 在其他领域的作用类似：

让大家有共同参照系
让算法进步开始可量化
让“机器人学习”从零散实验走向体系化研究

#四、第三阶段：SAC 和 off-policy 路线——解决“太难训、太费样本”

#经典工作 3：SAC（2018）

论文： Soft Actor-Critic Algorithms and Applications

链接： https://arxiv.org/abs/1812.05905

#它之前的问题是什么

DDPG 之类早期方法告诉大家“能做”，但还远远谈不上“好用”，主要问题有两个：

样本效率不够高
训练非常脆弱，对超参数和随机种子敏感

这在真实机器人上是致命的，因为真实机器人：

收数据很贵
硬件会磨损
一次训练跑几天并不罕见
不能接受“偶尔能成”的算法

#SAC 在解决什么

SAC 的核心目标是：

让连续控制中的深度 RL 更稳定、更高效、更接近真实机器人可用。

通过 maximum entropy 框架，它把“完成任务”和“保持探索性”结合起来，再加上自动温度调节，显著提升了稳定性和样本效率。

#它的历史位置

SAC 之所以经典，是因为它第一次比较像一个“现实可用”的机器人学习算法。

从那之后，很多具身智能实验默认都会把 SAC 当强基线，因为它代表的是：

深度 RL 不只是理论上可行
也可以在稳定性和效率上接近工程可接受水平

#五、第四阶段：层级强化学习——解决长时序任务分解问题

#经典工作 4：HIRO（2018）

论文： Data-Efficient Hierarchical Reinforcement Learning

链接： https://arxiv.org/abs/1805.08296

#它之前的问题是什么

即使 SAC 这类方法更稳定，具身智能仍然有一个老问题：

真实任务往往不是“一步抓取”那么简单
它们有长时序、延迟奖励、需要多步子目标
单层 policy 很难学会复杂结构化行为

#HIRO 要解决什么

HIRO 的目标是：

能不能用通用而高效的层级结构，把复杂任务拆成高层目标 + 低层执行。

它特别重要的一点是把 off-policy 效率带进了 HRL，而不是停留在笨重的 on-policy 层级方法上。

#它的意义

HIRO 代表一条一直延续到今天的关键思想：

具身智能不能只靠扁平动作序列
必须要有层级、技能、子目标、抽象动作

这条线后来在技能发现、技能组合、长任务规划、语言分解上都不断回潮。

#六、第五阶段：sim2real——解决“仿真里会，现实里不会”

只靠 RL 在真实机器人上学，成本太高，所以社区很自然转向仿真训练。

但仿真训练马上会遇到最著名的问题：

reality gap。

也就是仿真和现实之间有很大差距。

#经典工作 5：Domain Randomization（2017）

论文： Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

链接： https://arxiv.org/abs/1703.06907

#它之前的问题是什么

仿真数据好拿、便宜、可并行，但训练出来的模型到了真实世界会因为：

光照变化
纹理差异
物理参数偏移
传感器噪声
遮挡与干扰物

而迅速失效。

#它想解决什么

它解决的是：

如果仿真不够真实，那能不能反过来，把仿真做得足够“乱”，让现实只不过是其中一种随机情况。

#为什么重要

这是一个非常实用的工程思想转折：

不再追求完美仿真
而是追求足够广泛的变化覆盖

这套思路后来成为 sim2real 的重要支柱，并且影响了：

感知迁移
操作策略迁移
dexterous manipulation
机器人基础模型中的数据增强思想

#经典工作 6：Learning Dexterous In-Hand Manipulation（2018）

论文： Learning Dexterous In-Hand Manipulation

链接： https://arxiv.org/abs/1808.00177

#它之前的问题是什么

高自由度灵巧手操作一直被认为是具身智能最难的试金石之一，因为它涉及：

高维连续动作
稠密接触
摩擦与物理不确定性
极强的 sim2real 难题

#它在解决什么

这篇工作的目标非常明确：

能不能只在仿真中训练出高难度灵巧操作策略，并迁移到真实灵巧手。

它把分布式 RL、大规模随机化和高维灵巧操作结合起来，证明深度学习方法不只是做简单抓取，还能开始碰真正困难的操作任务。

#它的历史意义

这篇工作的意义在于把社区预期抬高了：

机器人学习不只是 low-level control benchmark
它可以碰触“近似人手能力”的复杂操作问题

虽然距离真正通用灵巧操作还很远，但它把研究边界往前推了一大截。

#七、第六阶段：模仿学习回潮——因为真实机器人不能总靠 trial-and-error

随着大家真正把算法往硬件上落，会越来越清楚地看到：

RL 很强，但真实世界试错太贵
人类示范其实是非常高价值的数据源
许多任务更适合 imitation / behavior cloning / offline learning 起步

于是具身智能开始明显从“纯 RL 驱动”转向“RL + imitation + offline data”混合范式。

#经典工作 7：ACT / ALOHA（2023）

论文： Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

链接： https://arxiv.org/abs/2304.13705

#它之前的问题是什么

很多精细操作任务在真实世界中很难学，原因包括：

精度要求高
误差会累积
双臂协调难
硬件和传感器昂贵
demonstrations 本身可能非平稳

#它想解决什么

它要解决的是：

低成本硬件能不能通过高质量示范学习，做出高精度、闭环、双臂精细操作。

ACT 的关键点在于 action chunking，它不是每一步都只预测一个原子动作，而是学习动作片段，从而缓解模仿学习中的误差累积和抖动。

#它为什么重要

这篇工作非常具代表性，因为它说明了一个现实趋势：

具身智能的进展，不一定只来自更大的 RL 算法
也来自更聪明的数据采集、更低成本的平台和更适合控制的动作表示

它推动了低成本具身智能实验平台和 imitation-first 路线的快速扩散。

#八、第七阶段：Diffusion Policy——解决多模态动作分布与稳定控制

#经典工作 8：Diffusion Policy（2023）

论文： Visuomotor Policy Learning via Action Diffusion

链接： https://arxiv.org/abs/2303.04137

#它之前的问题是什么

传统 behavior cloning 常常有一个老问题：

一个观测下可能对应多种合理动作
直接回归平均动作会导致动作变钝、犹豫、失败

尤其在机器人操作里，动作分布天然是多峰的。

#它想解决什么

Diffusion Policy 的核心问题是：

机器人策略能不能像生成模型一样，去建模复杂、多模态的动作分布，而不是只做简单均值回归。

#它的重要性

这很关键，因为它把生成模型范式带入了 robot policy learning：

diffusion 不只是生成图像视频
也可以生成动作序列
并且能更稳定地表达复杂操作策略

这条线后来对很多操作策略模型影响很大，也成为模仿学习与生成模型结合的重要代表。

#九、第八阶段：具身智能开始 foundation model 化

到这里，领域发生了一个质变。

前面的具身智能研究大多还是：

某个任务一个模型
某台机器人一个策略
某个实验室一个数据集

这显然不够“智能”。真正的智能如果想在现实世界里成立，就必须问：

机器人能不能像 NLP / CV 那样，也有通用预训练模型和跨任务迁移能力？

这就是机器人 foundation model 的起点。

#经典工作 9：RT-1（2022/2023）

论文： Robotics Transformer for Real-World Control at Scale

链接： https://arxiv.org/abs/2212.06817

#它之前的问题是什么

机器人学习长期有个结构性问题：

数据少
每个任务都像重新开荒
泛化能力差
模型容量和数据规模始终上不去

#RT-1 在解决什么

RT-1 的关键主张是：

机器人也应该像别的领域那样，用大规模、多任务、任务无关数据训练高容量模型。

它把 transformer、开放式任务训练和真实机器人数据规模化结合起来，明确提出：

数据规模
模型规模
数据多样性

对机器人泛化非常关键。

#它的历史地位

RT-1 的意义，不只是一个性能点，而是它让“robot foundation model”开始从口号变成可验证方向。

#十、第九阶段：从机器人 transformer 到 VLA——让互联网语义知识进入控制回路

RT-1 解决的是“机器人数据规模化预训练”问题，但还有一个更大的问题：

机器人数据再大，也远远不如互联网图文语义数据
机器人是否可以直接吃到 VLM / LLM 的语义知识红利？

#经典工作 10：RT-2（2023）

论文： Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

链接： https://arxiv.org/abs/2307.15818

#它之前的问题是什么

RT-1 虽然泛化更强，但它的语义世界仍主要由机器人轨迹数据决定。问题是：

机器人轨迹数据很难覆盖开放世界语义
很多常识和推理能力，其实已经在互联网大模型里学到了

#RT-2 在解决什么

RT-2 的核心问题是：

视觉语言模型的互联网知识，能不能直接迁移到机器人控制。

它通过把动作表示成文本 token，让同一个模型同时处理：

视觉语言任务
机器人控制任务

从而形成 vision-language-action 模型。

#为什么它是拐点

RT-2 之所以重要，是因为它改变了具身智能的叙事。

从这里开始，大家不再只是问：

机器人能不能学抓取

而是开始问：

机器人能不能利用 web-scale semantics
机器人能不能理解更抽象的语言指令
机器人能不能做一定程度的语义推理再执行动作

这一步，把具身智能和大模型真正并上了轨。

#十一、第十阶段：Open X-Embodiment——解决“每台机器人都是数据孤岛”

当大家开始做机器人基础模型，就会立刻碰到另一个现实问题：

不同机器人硬件不同
数据格式不同
动作空间不同
各实验室彼此割裂

如果数据不能汇聚，机器人 foundation model 就很难真正规模化。

#经典工作 11：Open X-Embodiment / RT-X（2023-2025）

论文： Open X-Embodiment: Robotic Learning Datasets and RT-X Models

链接： https://arxiv.org/abs/2310.08864

#它之前的问题是什么

在这之前，大多数机器人学习几乎都是：

每个实验室一套数据
每个平台一套接口
很难跨 embodiment 共训

#它想解决什么

它要解决的是：

机器人数据能不能像互联网数据那样汇聚起来，形成跨机器人、跨机构、跨任务的大规模学习语料。

它不仅提供数据格式和协作框架，还给出 RT-X 这类跨机器人模型，证明多机器人经验可以互相促进。

#历史意义

这篇工作的价值，不只是“数据更大”。

它代表一个更本质的转向：

从单体机器人学习，走向X-robot generalization
从单点模型，走向embodiment-agnostic pretraining

这是具身智能真正 foundation 化的基础工程。

#十二、第十一阶段：开源 VLA——把前沿具身智能从闭源 demo 拉回公共研究范式

#经典工作 12：OpenVLA（2024）

论文： OpenVLA: An Open-Source Vision-Language-Action Model

链接： https://arxiv.org/abs/2406.09246

#它之前的问题是什么

RT-2 很有影响力，但也有一个现实问题：

很多强 VLA 系统并不开放
外界很难复现、微调和真正大规模采用

#它在解决什么

OpenVLA 的目标是：

能不能把 vision-language-action 路线做成开放、可微调、可部署、可扩展的公共基础模型。

它重点解决了两类问题：

VLA 模型开放性不足
新任务高效微调路径不清晰

#它为什么重要

OpenVLA 的意义在于把具身智能从“只有少数大厂能玩的系统”往公共研究生态里拉。

这非常关键，因为具身智能真正需要的是：

可共享模型
可共享微调方法
可共享 benchmark
可共享跨机器人经验

否则这个方向很容易只剩下 showcase，而不是可持续发展的科学与工程体系。

#十三、如果把整个具身智能的发展串成一条问题接力链

这是最值得记住的部分。

#1. DDPG

要解决：深度学习能不能进入连续控制，直接学机器人动作。

#2. DeepMind Control Suite

要解决：具身智能研究能不能有统一的连续控制 benchmark。

#3. SAC

要解决：深度 RL 能不能更稳定、更高效、更适合真实机器人。

#4. HIRO

要解决：长时序复杂任务能不能通过层级结构来学习。

#5. Domain Randomization

要解决：仿真训练出来的模型怎么跨过 reality gap。

#6. Learning Dexterous In-Hand Manipulation

要解决：高维灵巧操作能不能通过大规模仿真学习迁移到真实机器人。

#7. ACT / ALOHA

要解决：低成本硬件能不能通过模仿学习做精细双臂操作。

#8. Diffusion Policy

要解决：机器人策略能不能更好建模多模态动作分布，减少平均化动作问题。

#9. RT-1

要解决：机器人能不能像 NLP/CV 一样依赖大规模多任务预训练获得泛化。

#10. RT-2

要解决：互联网视觉语言知识能不能直接迁移到机器人动作控制。

#11. Open X-Embodiment / RT-X

要解决：不同机器人和机构之间的数据孤岛，能不能汇聚成跨 embodiment 的通用训练语料。

#12. OpenVLA

要解决：VLA 能不能开放、可微调、可部署，成为公共研究基础设施。

这条链看完，领域逻辑就清楚了：

从“机器人怎么被控制”，到“机器人怎么被学习出来”，再到“机器人怎么依靠大规模数据和多模态模型形成通用能力”。

#十四、今天的具身智能，核心竞争点已经变了

到 2026 这个时间点，具身智能最前沿比的已经不再只是：

某个单任务成功率
某个控制算法在 benchmark 上多几分

真正比的是这些更基础的能力：

#1. 数据规模与多样性

谁拥有更多：

真实机器人轨迹
多任务示范
多机器人平台数据
语言标注与语义信息

谁就更有希望做出强 generalist policy。

#2. 动作表示与控制接口

动作不是简单输出一个连续向量就完了。

今天大家越来越重视：

action chunking
diffusion action generation
tokenized action
horizon-based planning

因为动作表示本身会显著影响稳定性和泛化。

#3. 感知-语言-动作统一建模

具身智能已经不再是单纯的视觉控制问题。

它正在变成：

视觉理解
语言理解
操作控制
世界知识

这四者统一建模的问题。

#4. 跨 embodiment 泛化

真正难的问题是：

在 A 机器人上学到的经验
能否迁移到 B 机器人、C 夹爪、D 场景

这决定了机器人基础模型能不能像语言模型那样“越训越通用”。

#5. 真正进入开放世界

开放世界意味着：

非结构化家居与工业环境
新物体
新指令
接触、遮挡、失败恢复
长任务与多阶段执行

这仍然是具身智能最难的战场。

#十五、为什么“具身”这件事比大模型想象得更难

很多人容易把具身智能理解成：

给大模型加摄像头和机械臂。

但真正难的地方在于，具身系统必须满足四个同时成立的条件：

#1. 语义理解得对

它得知道你让它干什么。

#2. 感知估计得准

它得看清环境、物体、相对关系和可操作区域。

#3. 动作执行得稳

它得在噪声、摩擦、延迟、控制误差下把动作做成。

#4. 失败还能恢复

它不能一次抓空就彻底崩掉。

而今天很多系统在前两项上进步很大，但在后两项上仍然脆弱。

所以从本质上说：

具身智能的问题，不只是“会不会想”，而是“想出来的东西能不能在物理世界里闭环成立”。

#十六、今天最关键的未解问题是什么

虽然 2026 已经很热，但具身智能远远没有 solved。

#1. 长时序任务仍然很难

像“整理桌面”“做饭的一步”“取物-开门-放置-关门”这种任务，往往需要：

多阶段规划
中间状态保持
失败恢复
持续感知更新

现有系统在短技能上进步快，在长任务上还很脆。

#2. 数据仍然是最大瓶颈之一

互联网有海量文本图像，但没有同等规模的高质量机器人交互数据。

所以具身智能的数据问题，比 LLM 严峻得多。

#3. 世界模型与操作之间还没真正打通

很多系统能感知、能规划、能局部操作，但还没有形成稳定统一的 world model → skill execution 闭环。

#4. 仿真与现实之间仍有结构性鸿沟

sim2real 进步很大，但接触丰富、长尾物体、变形体、遮挡环境依旧困难。

#5. 泛化仍然不够“开放世界”

今天很多 generalization 更像：

同分布附近泛化
相似任务泛化
已见硬件附近泛化

离真正无缝开放世界泛化还有很大距离。

#十七、我对 2026 这个时间点的判断

如果你问我：到 2026 今天，具身智能最本质的变化是什么？

我的判断是：

具身智能已经从“机器人学习的一组技术”，转向“机器人基础模型 + 真实系统工程”的综合竞争。

现在真正重要的不再是某篇论文单点把成功率提了多少，而是：

谁能收集并组织更大规模高质量机器人数据
谁能把语言、视觉、动作统一建模
谁能做跨机器人共享能力
谁能把策略真正稳定落到物理硬件上
谁能处理长任务和失败恢复

也就是说，具身智能今天已经进入“基础设施战争”阶段。

这很像视频生成在走向 foundation model 时发生的变化：

单点 SOTA 仍重要
但真正拉开差距的是整套系统栈

而具身智能的这套系统栈更加复杂，因为它还多了：

硬件
实时控制
接触物理
安全与鲁棒性

#十八、最后用一句话概括整个发展脉络

如果非要把这篇长文压成一句话，那就是：

具身智能的发展逻辑，本质上是在不断把“会感知、会理解、会决策”的软件智能，压进受物理约束的真实世界里，最终逼着模型从单任务控制器成长为能够跨任务、跨机器人、跨场景泛化的行动智能体。

而 2026 的前沿竞争，已经明显转向：

机器人基础模型
vision-language-action 统一建模
跨 embodiment 数据汇聚
长时序任务与开放世界泛化

这才是理解具身智能最重要的主线。

#参考论文与里程碑

Continuous control with deep reinforcement learning (DDPG, 2015)

https://arxiv.org/abs/1509.02971

DeepMind Control Suite (2018)

https://arxiv.org/abs/1801.00690

Data-Efficient Hierarchical Reinforcement Learning / HIRO (2018)

https://arxiv.org/abs/1805.08296

Soft Actor-Critic Algorithms and Applications (SAC, 2018)

https://arxiv.org/abs/1812.05905

Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World (2017)

https://arxiv.org/abs/1703.06907

Learning Dexterous In-Hand Manipulation (2018)

https://arxiv.org/abs/1808.00177

Robotics Transformer for Real-World Control at Scale (RT-1, 2022/2023)

https://arxiv.org/abs/2212.06817

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware / ACT, ALOHA (2023)

https://arxiv.org/abs/2304.13705

Visuomotor Policy Learning via Action Diffusion / Diffusion Policy (2023/2024)

https://arxiv.org/abs/2303.04137

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)

https://arxiv.org/abs/2307.15818

Open X-Embodiment: Robotic Learning Datasets and RT-X Models (2023-2025)

https://arxiv.org/abs/2310.08864

OpenVLA: An Open-Source Vision-Language-Action Model (2024)

https://arxiv.org/abs/2406.09246