#具身智能发展脉络全景梳理:从控制与感知到机器人基础模型

#先给结论:具身智能到底在发展什么

如果把具身智能这几年的进展压成一句话,那就是:

这个方向一直在试图把“会感知、会决策、会操作”的智能,从纯软件系统,变成能在真实物理世界里闭环行动的系统。

所以具身智能不是单一技术,而是一个长期交汇点。它把下面这些东西不断往一起拧:

  • 感知
  • 控制
  • 规划
  • 学习
  • 世界模型
  • 语言理解
  • 真实机器人系统工程

而且它的发展逻辑非常清楚:

  1. 先解决“机器人怎么动” —— 控制、动力学、状态估计、规划
  2. 再解决“机器人怎么学会动” —— 强化学习、模仿学习、sim2real
  3. 再解决“机器人怎么在复杂开放环境中泛化” —— 数据集、预训练、视觉语言模型、跨任务迁移
  4. 最后走向“机器人基础模型” —— 通用操作策略、VLA、跨机器人共享经验、语言驱动操作

所以具身智能的核心,不是“给 LLM 接个机械臂”这么简单。

它真正难的地方在于:

智能必须被放进物理世界里接受约束。

在这个世界里,错误会累积、接触是非光滑的、感知有噪声、任务稀疏、动作连续、数据昂贵、硬件各不相同。

也正因为如此,具身智能的发展速度一直取决于两件事:

  • 算法到底能不能顶住物理世界的不确定性
  • 系统工程到底能不能把大模型能力落到真实机器人上

下面按发展脉络展开。


#一、深度学习接管之前:具身智能原本是“机器人学问题”

在深度学习和大模型进入之前,具身智能本质上主要是传统机器人学的话题。

那个阶段的核心任务是:

  • 机械臂运动学 / 动力学建模
  • 路径规划
  • 状态估计
  • 视觉定位与抓取
  • 反馈控制
  • 接触与力控制

这个阶段的方法很强,但有个根本问题:

#它们高度依赖人工建模和任务拆解

也就是说,系统往往需要研究者手工指定:

  • 状态表示
  • 中间子任务
  • 目标函数
  • 控制结构
  • 环境假设

这类方法在结构明确、环境已知的任务里很有效,但一旦进入:

  • 非结构化环境
  • 复杂抓取
  • 长时序任务
  • 家居场景
  • 开放语义指令

就会迅速遇到瓶颈。

所以后面整个领域开始往学习型方法迁移,本质上是在解决:

机器人能不能少依赖人工规则,直接从数据中学到感知-决策-动作映射?


#二、第一阶段:深度强化学习把“会控制”推向“会学控制”

现代具身智能的第一波拐点,其实来自深度强化学习。

#经典工作 1:DDPG(2015)

论文: Continuous control with deep reinforcement learning

链接: https://arxiv.org/abs/1509.02971

#它之前的问题是什么

深度学习在离散动作任务里已经很亮眼,但机器人控制的核心问题是:

  • 动作空间往往是连续的
  • 机械臂和移动机器人都不是按几个离散按钮来操作
  • 高维控制任务很难直接套 DQN 那套思路

#DDPG 在解决什么

DDPG 解决的是:

深度强化学习能不能进入连续控制领域。

它把 deterministic policy gradient 和深度网络结合起来,让模型能处理高维连续动作控制,还展示了端到端从像素到动作的可能性。

#它的历史地位

这篇工作今天看未必是最稳定的算法,但它极其关键,因为它告诉整个社区:

  • 机器人控制可以用深度 RL 做
  • 连续控制是可学的
  • 感知与控制端到端连接是有希望的

这相当于把“深度 RL for robotics”这条路正式打开。


#三、第二阶段:从“会学”到“能训练起来”——基准、样本效率与稳定性

只会在几个 toy task 上学起来不够。具身智能真正困难的是:

  • 训练不稳定
  • 需要大量交互数据
  • 很难比较算法谁更有效
  • 真实机器人试错成本太高

所以接下来领域开始补基础设施。

#经典工作 2:DeepMind Control Suite(2018)

论文: DeepMind Control Suite

链接: https://arxiv.org/abs/1801.00690

#它之前的问题是什么

在这之前,连续控制实验环境比较碎,任务设置也不统一。

这就导致:

  • 很难系统比较算法
  • benchmark 不稳定
  • 结果复现麻烦
  • 社区优化速度慢

#它在解决什么

它解决的是:

具身智能 / 连续控制研究能不能有一个统一、可解释、可复现的实验场。

#为什么重要

它不是在提升某个算法,而是在建立一个公共地基。

没有统一 benchmark,后面的 SAC、Dreamer、各种 policy learning 方法其实都很难稳定迭代。

它对具身智能的作用,和 ImageNet / GLUE / MMLU 在其他领域的作用类似:

  • 让大家有共同参照系
  • 让算法进步开始可量化
  • 让“机器人学习”从零散实验走向体系化研究

#四、第三阶段:SAC 和 off-policy 路线——解决“太难训、太费样本”

#经典工作 3:SAC(2018)

论文: Soft Actor-Critic Algorithms and Applications

链接: https://arxiv.org/abs/1812.05905

#它之前的问题是什么

DDPG 之类早期方法告诉大家“能做”,但还远远谈不上“好用”,主要问题有两个:

  1. 样本效率不够高
  2. 训练非常脆弱,对超参数和随机种子敏感

这在真实机器人上是致命的,因为真实机器人:

  • 收数据很贵
  • 硬件会磨损
  • 一次训练跑几天并不罕见
  • 不能接受“偶尔能成”的算法

#SAC 在解决什么

SAC 的核心目标是:

让连续控制中的深度 RL 更稳定、更高效、更接近真实机器人可用。

通过 maximum entropy 框架,它把“完成任务”和“保持探索性”结合起来,再加上自动温度调节,显著提升了稳定性和样本效率。

#它的历史位置

SAC 之所以经典,是因为它第一次比较像一个“现实可用”的机器人学习算法。

从那之后,很多具身智能实验默认都会把 SAC 当强基线,因为它代表的是:

  • 深度 RL 不只是理论上可行
  • 也可以在稳定性和效率上接近工程可接受水平

#五、第四阶段:层级强化学习——解决长时序任务分解问题

#经典工作 4:HIRO(2018)

论文: Data-Efficient Hierarchical Reinforcement Learning

链接: https://arxiv.org/abs/1805.08296

#它之前的问题是什么

即使 SAC 这类方法更稳定,具身智能仍然有一个老问题:

  • 真实任务往往不是“一步抓取”那么简单
  • 它们有长时序、延迟奖励、需要多步子目标
  • 单层 policy 很难学会复杂结构化行为

#HIRO 要解决什么

HIRO 的目标是:

能不能用通用而高效的层级结构,把复杂任务拆成高层目标 + 低层执行。

它特别重要的一点是把 off-policy 效率带进了 HRL,而不是停留在笨重的 on-policy 层级方法上。

#它的意义

HIRO 代表一条一直延续到今天的关键思想:

  • 具身智能不能只靠扁平动作序列
  • 必须要有层级、技能、子目标、抽象动作

这条线后来在技能发现、技能组合、长任务规划、语言分解上都不断回潮。


#六、第五阶段:sim2real——解决“仿真里会,现实里不会”

只靠 RL 在真实机器人上学,成本太高,所以社区很自然转向仿真训练。

但仿真训练马上会遇到最著名的问题:

reality gap

也就是仿真和现实之间有很大差距。

#经典工作 5:Domain Randomization(2017)

论文: Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

链接: https://arxiv.org/abs/1703.06907

#它之前的问题是什么

仿真数据好拿、便宜、可并行,但训练出来的模型到了真实世界会因为:

  • 光照变化
  • 纹理差异
  • 物理参数偏移
  • 传感器噪声
  • 遮挡与干扰物

而迅速失效。

#它想解决什么

它解决的是:

如果仿真不够真实,那能不能反过来,把仿真做得足够“乱”,让现实只不过是其中一种随机情况。

#为什么重要

这是一个非常实用的工程思想转折:

  • 不再追求完美仿真
  • 而是追求足够广泛的变化覆盖

这套思路后来成为 sim2real 的重要支柱,并且影响了:

  • 感知迁移
  • 操作策略迁移
  • dexterous manipulation
  • 机器人基础模型中的数据增强思想

#经典工作 6:Learning Dexterous In-Hand Manipulation(2018)

论文: Learning Dexterous In-Hand Manipulation

链接: https://arxiv.org/abs/1808.00177

#它之前的问题是什么

高自由度灵巧手操作一直被认为是具身智能最难的试金石之一,因为它涉及:

  • 高维连续动作
  • 稠密接触
  • 摩擦与物理不确定性
  • 极强的 sim2real 难题

#它在解决什么

这篇工作的目标非常明确:

能不能只在仿真中训练出高难度灵巧操作策略,并迁移到真实灵巧手。

它把分布式 RL、大规模随机化和高维灵巧操作结合起来,证明深度学习方法不只是做简单抓取,还能开始碰真正困难的操作任务。

#它的历史意义

这篇工作的意义在于把社区预期抬高了:

  • 机器人学习不只是 low-level control benchmark
  • 它可以碰触“近似人手能力”的复杂操作问题

虽然距离真正通用灵巧操作还很远,但它把研究边界往前推了一大截。


#七、第六阶段:模仿学习回潮——因为真实机器人不能总靠 trial-and-error

随着大家真正把算法往硬件上落,会越来越清楚地看到:

  • RL 很强,但真实世界试错太贵
  • 人类示范其实是非常高价值的数据源
  • 许多任务更适合 imitation / behavior cloning / offline learning 起步

于是具身智能开始明显从“纯 RL 驱动”转向“RL + imitation + offline data”混合范式。

#经典工作 7:ACT / ALOHA(2023)

论文: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

链接: https://arxiv.org/abs/2304.13705

#它之前的问题是什么

很多精细操作任务在真实世界中很难学,原因包括:

  • 精度要求高
  • 误差会累积
  • 双臂协调难
  • 硬件和传感器昂贵
  • demonstrations 本身可能非平稳

#它想解决什么

它要解决的是:

低成本硬件能不能通过高质量示范学习,做出高精度、闭环、双臂精细操作。

ACT 的关键点在于 action chunking,它不是每一步都只预测一个原子动作,而是学习动作片段,从而缓解模仿学习中的误差累积和抖动。

#它为什么重要

这篇工作非常具代表性,因为它说明了一个现实趋势:

  • 具身智能的进展,不一定只来自更大的 RL 算法
  • 也来自更聪明的数据采集、更低成本的平台和更适合控制的动作表示

它推动了低成本具身智能实验平台和 imitation-first 路线的快速扩散。


#八、第七阶段:Diffusion Policy——解决多模态动作分布与稳定控制

#经典工作 8:Diffusion Policy(2023)

论文: Visuomotor Policy Learning via Action Diffusion

链接: https://arxiv.org/abs/2303.04137

#它之前的问题是什么

传统 behavior cloning 常常有一个老问题:

  • 一个观测下可能对应多种合理动作
  • 直接回归平均动作会导致动作变钝、犹豫、失败

尤其在机器人操作里,动作分布天然是多峰的。

#它想解决什么

Diffusion Policy 的核心问题是:

机器人策略能不能像生成模型一样,去建模复杂、多模态的动作分布,而不是只做简单均值回归。

#它的重要性

这很关键,因为它把生成模型范式带入了 robot policy learning:

  • diffusion 不只是生成图像视频
  • 也可以生成动作序列
  • 并且能更稳定地表达复杂操作策略

这条线后来对很多操作策略模型影响很大,也成为模仿学习与生成模型结合的重要代表。


#九、第八阶段:具身智能开始 foundation model 化

到这里,领域发生了一个质变。

前面的具身智能研究大多还是:

  • 某个任务一个模型
  • 某台机器人一个策略
  • 某个实验室一个数据集

这显然不够“智能”。真正的智能如果想在现实世界里成立,就必须问:

机器人能不能像 NLP / CV 那样,也有通用预训练模型和跨任务迁移能力?

这就是机器人 foundation model 的起点。

#经典工作 9:RT-1(2022/2023)

论文: Robotics Transformer for Real-World Control at Scale

链接: https://arxiv.org/abs/2212.06817

#它之前的问题是什么

机器人学习长期有个结构性问题:

  • 数据少
  • 每个任务都像重新开荒
  • 泛化能力差
  • 模型容量和数据规模始终上不去

#RT-1 在解决什么

RT-1 的关键主张是:

机器人也应该像别的领域那样,用大规模、多任务、任务无关数据训练高容量模型。

它把 transformer、开放式任务训练和真实机器人数据规模化结合起来,明确提出:

  • 数据规模
  • 模型规模
  • 数据多样性

对机器人泛化非常关键。

#它的历史地位

RT-1 的意义,不只是一个性能点,而是它让“robot foundation model”开始从口号变成可验证方向。


#十、第九阶段:从机器人 transformer 到 VLA——让互联网语义知识进入控制回路

RT-1 解决的是“机器人数据规模化预训练”问题,但还有一个更大的问题:

  • 机器人数据再大,也远远不如互联网图文语义数据
  • 机器人是否可以直接吃到 VLM / LLM 的语义知识红利?

#经典工作 10:RT-2(2023)

论文: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

链接: https://arxiv.org/abs/2307.15818

#它之前的问题是什么

RT-1 虽然泛化更强,但它的语义世界仍主要由机器人轨迹数据决定。问题是:

  • 机器人轨迹数据很难覆盖开放世界语义
  • 很多常识和推理能力,其实已经在互联网大模型里学到了

#RT-2 在解决什么

RT-2 的核心问题是:

视觉语言模型的互联网知识,能不能直接迁移到机器人控制。

它通过把动作表示成文本 token,让同一个模型同时处理:

  • 视觉语言任务
  • 机器人控制任务

从而形成 vision-language-action 模型。

#为什么它是拐点

RT-2 之所以重要,是因为它改变了具身智能的叙事。

从这里开始,大家不再只是问:

  • 机器人能不能学抓取

而是开始问:

  • 机器人能不能利用 web-scale semantics
  • 机器人能不能理解更抽象的语言指令
  • 机器人能不能做一定程度的语义推理再执行动作

这一步,把具身智能和大模型真正并上了轨。


#十一、第十阶段:Open X-Embodiment——解决“每台机器人都是数据孤岛”

当大家开始做机器人基础模型,就会立刻碰到另一个现实问题:

  • 不同机器人硬件不同
  • 数据格式不同
  • 动作空间不同
  • 各实验室彼此割裂

如果数据不能汇聚,机器人 foundation model 就很难真正规模化。

#经典工作 11:Open X-Embodiment / RT-X(2023-2025)

论文: Open X-Embodiment: Robotic Learning Datasets and RT-X Models

链接: https://arxiv.org/abs/2310.08864

#它之前的问题是什么

在这之前,大多数机器人学习几乎都是:

  • 每个实验室一套数据
  • 每个平台一套接口
  • 很难跨 embodiment 共训

#它想解决什么

它要解决的是:

机器人数据能不能像互联网数据那样汇聚起来,形成跨机器人、跨机构、跨任务的大规模学习语料。

它不仅提供数据格式和协作框架,还给出 RT-X 这类跨机器人模型,证明多机器人经验可以互相促进。

#历史意义

这篇工作的价值,不只是“数据更大”。

它代表一个更本质的转向:

  • 从单体机器人学习,走向X-robot generalization
  • 从单点模型,走向embodiment-agnostic pretraining

这是具身智能真正 foundation 化的基础工程。


#十二、第十一阶段:开源 VLA——把前沿具身智能从闭源 demo 拉回公共研究范式

#经典工作 12:OpenVLA(2024)

论文: OpenVLA: An Open-Source Vision-Language-Action Model

链接: https://arxiv.org/abs/2406.09246

#它之前的问题是什么

RT-2 很有影响力,但也有一个现实问题:

  • 很多强 VLA 系统并不开放
  • 外界很难复现、微调和真正大规模采用

#它在解决什么

OpenVLA 的目标是:

能不能把 vision-language-action 路线做成开放、可微调、可部署、可扩展的公共基础模型。

它重点解决了两类问题:

  1. VLA 模型开放性不足
  2. 新任务高效微调路径不清晰

#它为什么重要

OpenVLA 的意义在于把具身智能从“只有少数大厂能玩的系统”往公共研究生态里拉。

这非常关键,因为具身智能真正需要的是:

  • 可共享模型
  • 可共享微调方法
  • 可共享 benchmark
  • 可共享跨机器人经验

否则这个方向很容易只剩下 showcase,而不是可持续发展的科学与工程体系。


#十三、如果把整个具身智能的发展串成一条问题接力链

这是最值得记住的部分。

#1. DDPG

要解决:深度学习能不能进入连续控制,直接学机器人动作。

#2. DeepMind Control Suite

要解决:具身智能研究能不能有统一的连续控制 benchmark。

#3. SAC

要解决:深度 RL 能不能更稳定、更高效、更适合真实机器人。

#4. HIRO

要解决:长时序复杂任务能不能通过层级结构来学习。

#5. Domain Randomization

要解决:仿真训练出来的模型怎么跨过 reality gap。

#6. Learning Dexterous In-Hand Manipulation

要解决:高维灵巧操作能不能通过大规模仿真学习迁移到真实机器人。

#7. ACT / ALOHA

要解决:低成本硬件能不能通过模仿学习做精细双臂操作。

#8. Diffusion Policy

要解决:机器人策略能不能更好建模多模态动作分布,减少平均化动作问题。

#9. RT-1

要解决:机器人能不能像 NLP/CV 一样依赖大规模多任务预训练获得泛化。

#10. RT-2

要解决:互联网视觉语言知识能不能直接迁移到机器人动作控制。

#11. Open X-Embodiment / RT-X

要解决:不同机器人和机构之间的数据孤岛,能不能汇聚成跨 embodiment 的通用训练语料。

#12. OpenVLA

要解决:VLA 能不能开放、可微调、可部署,成为公共研究基础设施。

这条链看完,领域逻辑就清楚了:

从“机器人怎么被控制”,到“机器人怎么被学习出来”,再到“机器人怎么依靠大规模数据和多模态模型形成通用能力”。


#十四、今天的具身智能,核心竞争点已经变了

到 2026 这个时间点,具身智能最前沿比的已经不再只是:

  • 某个单任务成功率
  • 某个控制算法在 benchmark 上多几分

真正比的是这些更基础的能力:

#1. 数据规模与多样性

谁拥有更多:

  • 真实机器人轨迹
  • 多任务示范
  • 多机器人平台数据
  • 语言标注与语义信息

谁就更有希望做出强 generalist policy。

#2. 动作表示与控制接口

动作不是简单输出一个连续向量就完了。

今天大家越来越重视:

  • action chunking
  • diffusion action generation
  • tokenized action
  • horizon-based planning

因为动作表示本身会显著影响稳定性和泛化。

#3. 感知-语言-动作统一建模

具身智能已经不再是单纯的视觉控制问题。

它正在变成:

  • 视觉理解
  • 语言理解
  • 操作控制
  • 世界知识

这四者统一建模的问题。

#4. 跨 embodiment 泛化

真正难的问题是:

  • 在 A 机器人上学到的经验
  • 能否迁移到 B 机器人、C 夹爪、D 场景

这决定了机器人基础模型能不能像语言模型那样“越训越通用”。

#5. 真正进入开放世界

开放世界意味着:

  • 非结构化家居与工业环境
  • 新物体
  • 新指令
  • 接触、遮挡、失败恢复
  • 长任务与多阶段执行

这仍然是具身智能最难的战场。


#十五、为什么“具身”这件事比大模型想象得更难

很多人容易把具身智能理解成:

给大模型加摄像头和机械臂。

但真正难的地方在于,具身系统必须满足四个同时成立的条件:

#1. 语义理解得对

它得知道你让它干什么。

#2. 感知估计得准

它得看清环境、物体、相对关系和可操作区域。

#3. 动作执行得稳

它得在噪声、摩擦、延迟、控制误差下把动作做成。

#4. 失败还能恢复

它不能一次抓空就彻底崩掉。

而今天很多系统在前两项上进步很大,但在后两项上仍然脆弱。

所以从本质上说:

具身智能的问题,不只是“会不会想”,而是“想出来的东西能不能在物理世界里闭环成立”。


#十六、今天最关键的未解问题是什么

虽然 2026 已经很热,但具身智能远远没有 solved。

#1. 长时序任务仍然很难

像“整理桌面”“做饭的一步”“取物-开门-放置-关门”这种任务,往往需要:

  • 多阶段规划
  • 中间状态保持
  • 失败恢复
  • 持续感知更新

现有系统在短技能上进步快,在长任务上还很脆。

#2. 数据仍然是最大瓶颈之一

互联网有海量文本图像,但没有同等规模的高质量机器人交互数据。

所以具身智能的数据问题,比 LLM 严峻得多。

#3. 世界模型与操作之间还没真正打通

很多系统能感知、能规划、能局部操作,但还没有形成稳定统一的 world model → skill execution 闭环。

#4. 仿真与现实之间仍有结构性鸿沟

sim2real 进步很大,但接触丰富、长尾物体、变形体、遮挡环境依旧困难。

#5. 泛化仍然不够“开放世界”

今天很多 generalization 更像:

  • 同分布附近泛化
  • 相似任务泛化
  • 已见硬件附近泛化

离真正无缝开放世界泛化还有很大距离。


#十七、我对 2026 这个时间点的判断

如果你问我:到 2026 今天,具身智能最本质的变化是什么?

我的判断是:

具身智能已经从“机器人学习的一组技术”,转向“机器人基础模型 + 真实系统工程”的综合竞争。

现在真正重要的不再是某篇论文单点把成功率提了多少,而是:

  • 谁能收集并组织更大规模高质量机器人数据
  • 谁能把语言、视觉、动作统一建模
  • 谁能做跨机器人共享能力
  • 谁能把策略真正稳定落到物理硬件上
  • 谁能处理长任务和失败恢复

也就是说,具身智能今天已经进入“基础设施战争”阶段。

这很像视频生成在走向 foundation model 时发生的变化:

  • 单点 SOTA 仍重要
  • 但真正拉开差距的是整套系统栈

而具身智能的这套系统栈更加复杂,因为它还多了:

  • 硬件
  • 实时控制
  • 接触物理
  • 安全与鲁棒性

#十八、最后用一句话概括整个发展脉络

如果非要把这篇长文压成一句话,那就是:

具身智能的发展逻辑,本质上是在不断把“会感知、会理解、会决策”的软件智能,压进受物理约束的真实世界里,最终逼着模型从单任务控制器成长为能够跨任务、跨机器人、跨场景泛化的行动智能体。

而 2026 的前沿竞争,已经明显转向:

  • 机器人基础模型
  • vision-language-action 统一建模
  • 跨 embodiment 数据汇聚
  • 长时序任务与开放世界泛化

这才是理解具身智能最重要的主线。


#参考论文与里程碑

  1. Continuous control with deep reinforcement learning (DDPG, 2015)

https://arxiv.org/abs/1509.02971

  1. DeepMind Control Suite (2018)

https://arxiv.org/abs/1801.00690

  1. Data-Efficient Hierarchical Reinforcement Learning / HIRO (2018)

https://arxiv.org/abs/1805.08296

  1. Soft Actor-Critic Algorithms and Applications (SAC, 2018)

https://arxiv.org/abs/1812.05905

  1. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World (2017)

https://arxiv.org/abs/1703.06907

  1. Learning Dexterous In-Hand Manipulation (2018)

https://arxiv.org/abs/1808.00177

  1. Robotics Transformer for Real-World Control at Scale (RT-1, 2022/2023)

https://arxiv.org/abs/2212.06817

  1. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware / ACT, ALOHA (2023)

https://arxiv.org/abs/2304.13705

  1. Visuomotor Policy Learning via Action Diffusion / Diffusion Policy (2023/2024)

https://arxiv.org/abs/2303.04137

  1. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)

https://arxiv.org/abs/2307.15818

  1. Open X-Embodiment: Robotic Learning Datasets and RT-X Models (2023-2025)

https://arxiv.org/abs/2310.08864

  1. OpenVLA: An Open-Source Vision-Language-Action Model (2024)

https://arxiv.org/abs/2406.09246