#具身智能发展脉络全景梳理:从控制与感知到机器人基础模型
#先给结论:具身智能到底在发展什么
如果把具身智能这几年的进展压成一句话,那就是:
这个方向一直在试图把“会感知、会决策、会操作”的智能,从纯软件系统,变成能在真实物理世界里闭环行动的系统。
所以具身智能不是单一技术,而是一个长期交汇点。它把下面这些东西不断往一起拧:
- 感知
- 控制
- 规划
- 学习
- 世界模型
- 语言理解
- 真实机器人系统工程
而且它的发展逻辑非常清楚:
- 先解决“机器人怎么动” —— 控制、动力学、状态估计、规划
- 再解决“机器人怎么学会动” —— 强化学习、模仿学习、sim2real
- 再解决“机器人怎么在复杂开放环境中泛化” —— 数据集、预训练、视觉语言模型、跨任务迁移
- 最后走向“机器人基础模型” —— 通用操作策略、VLA、跨机器人共享经验、语言驱动操作
所以具身智能的核心,不是“给 LLM 接个机械臂”这么简单。
它真正难的地方在于:
智能必须被放进物理世界里接受约束。
在这个世界里,错误会累积、接触是非光滑的、感知有噪声、任务稀疏、动作连续、数据昂贵、硬件各不相同。
也正因为如此,具身智能的发展速度一直取决于两件事:
- 算法到底能不能顶住物理世界的不确定性
- 系统工程到底能不能把大模型能力落到真实机器人上
下面按发展脉络展开。
#一、深度学习接管之前:具身智能原本是“机器人学问题”
在深度学习和大模型进入之前,具身智能本质上主要是传统机器人学的话题。
那个阶段的核心任务是:
- 机械臂运动学 / 动力学建模
- 路径规划
- 状态估计
- 视觉定位与抓取
- 反馈控制
- 接触与力控制
这个阶段的方法很强,但有个根本问题:
#它们高度依赖人工建模和任务拆解
也就是说,系统往往需要研究者手工指定:
- 状态表示
- 中间子任务
- 目标函数
- 控制结构
- 环境假设
这类方法在结构明确、环境已知的任务里很有效,但一旦进入:
- 非结构化环境
- 复杂抓取
- 长时序任务
- 家居场景
- 开放语义指令
就会迅速遇到瓶颈。
所以后面整个领域开始往学习型方法迁移,本质上是在解决:
机器人能不能少依赖人工规则,直接从数据中学到感知-决策-动作映射?
#二、第一阶段:深度强化学习把“会控制”推向“会学控制”
现代具身智能的第一波拐点,其实来自深度强化学习。
#经典工作 1:DDPG(2015)
论文: Continuous control with deep reinforcement learning
链接: https://arxiv.org/abs/1509.02971
#它之前的问题是什么
深度学习在离散动作任务里已经很亮眼,但机器人控制的核心问题是:
- 动作空间往往是连续的
- 机械臂和移动机器人都不是按几个离散按钮来操作
- 高维控制任务很难直接套 DQN 那套思路
#DDPG 在解决什么
DDPG 解决的是:
深度强化学习能不能进入连续控制领域。
它把 deterministic policy gradient 和深度网络结合起来,让模型能处理高维连续动作控制,还展示了端到端从像素到动作的可能性。
#它的历史地位
这篇工作今天看未必是最稳定的算法,但它极其关键,因为它告诉整个社区:
- 机器人控制可以用深度 RL 做
- 连续控制是可学的
- 感知与控制端到端连接是有希望的
这相当于把“深度 RL for robotics”这条路正式打开。
#三、第二阶段:从“会学”到“能训练起来”——基准、样本效率与稳定性
只会在几个 toy task 上学起来不够。具身智能真正困难的是:
- 训练不稳定
- 需要大量交互数据
- 很难比较算法谁更有效
- 真实机器人试错成本太高
所以接下来领域开始补基础设施。
#经典工作 2:DeepMind Control Suite(2018)
论文: DeepMind Control Suite
链接: https://arxiv.org/abs/1801.00690
#它之前的问题是什么
在这之前,连续控制实验环境比较碎,任务设置也不统一。
这就导致:
- 很难系统比较算法
- benchmark 不稳定
- 结果复现麻烦
- 社区优化速度慢
#它在解决什么
它解决的是:
具身智能 / 连续控制研究能不能有一个统一、可解释、可复现的实验场。
#为什么重要
它不是在提升某个算法,而是在建立一个公共地基。
没有统一 benchmark,后面的 SAC、Dreamer、各种 policy learning 方法其实都很难稳定迭代。
它对具身智能的作用,和 ImageNet / GLUE / MMLU 在其他领域的作用类似:
- 让大家有共同参照系
- 让算法进步开始可量化
- 让“机器人学习”从零散实验走向体系化研究
#四、第三阶段:SAC 和 off-policy 路线——解决“太难训、太费样本”
#经典工作 3:SAC(2018)
论文: Soft Actor-Critic Algorithms and Applications
链接: https://arxiv.org/abs/1812.05905
#它之前的问题是什么
DDPG 之类早期方法告诉大家“能做”,但还远远谈不上“好用”,主要问题有两个:
- 样本效率不够高
- 训练非常脆弱,对超参数和随机种子敏感
这在真实机器人上是致命的,因为真实机器人:
- 收数据很贵
- 硬件会磨损
- 一次训练跑几天并不罕见
- 不能接受“偶尔能成”的算法
#SAC 在解决什么
SAC 的核心目标是:
让连续控制中的深度 RL 更稳定、更高效、更接近真实机器人可用。
通过 maximum entropy 框架,它把“完成任务”和“保持探索性”结合起来,再加上自动温度调节,显著提升了稳定性和样本效率。
#它的历史位置
SAC 之所以经典,是因为它第一次比较像一个“现实可用”的机器人学习算法。
从那之后,很多具身智能实验默认都会把 SAC 当强基线,因为它代表的是:
- 深度 RL 不只是理论上可行
- 也可以在稳定性和效率上接近工程可接受水平
#五、第四阶段:层级强化学习——解决长时序任务分解问题
#经典工作 4:HIRO(2018)
论文: Data-Efficient Hierarchical Reinforcement Learning
链接: https://arxiv.org/abs/1805.08296
#它之前的问题是什么
即使 SAC 这类方法更稳定,具身智能仍然有一个老问题:
- 真实任务往往不是“一步抓取”那么简单
- 它们有长时序、延迟奖励、需要多步子目标
- 单层 policy 很难学会复杂结构化行为
#HIRO 要解决什么
HIRO 的目标是:
能不能用通用而高效的层级结构,把复杂任务拆成高层目标 + 低层执行。
它特别重要的一点是把 off-policy 效率带进了 HRL,而不是停留在笨重的 on-policy 层级方法上。
#它的意义
HIRO 代表一条一直延续到今天的关键思想:
- 具身智能不能只靠扁平动作序列
- 必须要有层级、技能、子目标、抽象动作
这条线后来在技能发现、技能组合、长任务规划、语言分解上都不断回潮。
#六、第五阶段:sim2real——解决“仿真里会,现实里不会”
只靠 RL 在真实机器人上学,成本太高,所以社区很自然转向仿真训练。
但仿真训练马上会遇到最著名的问题:
reality gap。
也就是仿真和现实之间有很大差距。
#经典工作 5:Domain Randomization(2017)
论文: Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World
链接: https://arxiv.org/abs/1703.06907
#它之前的问题是什么
仿真数据好拿、便宜、可并行,但训练出来的模型到了真实世界会因为:
- 光照变化
- 纹理差异
- 物理参数偏移
- 传感器噪声
- 遮挡与干扰物
而迅速失效。
#它想解决什么
它解决的是:
如果仿真不够真实,那能不能反过来,把仿真做得足够“乱”,让现实只不过是其中一种随机情况。
#为什么重要
这是一个非常实用的工程思想转折:
- 不再追求完美仿真
- 而是追求足够广泛的变化覆盖
这套思路后来成为 sim2real 的重要支柱,并且影响了:
- 感知迁移
- 操作策略迁移
- dexterous manipulation
- 机器人基础模型中的数据增强思想
#经典工作 6:Learning Dexterous In-Hand Manipulation(2018)
论文: Learning Dexterous In-Hand Manipulation
链接: https://arxiv.org/abs/1808.00177
#它之前的问题是什么
高自由度灵巧手操作一直被认为是具身智能最难的试金石之一,因为它涉及:
- 高维连续动作
- 稠密接触
- 摩擦与物理不确定性
- 极强的 sim2real 难题
#它在解决什么
这篇工作的目标非常明确:
能不能只在仿真中训练出高难度灵巧操作策略,并迁移到真实灵巧手。
它把分布式 RL、大规模随机化和高维灵巧操作结合起来,证明深度学习方法不只是做简单抓取,还能开始碰真正困难的操作任务。
#它的历史意义
这篇工作的意义在于把社区预期抬高了:
- 机器人学习不只是 low-level control benchmark
- 它可以碰触“近似人手能力”的复杂操作问题
虽然距离真正通用灵巧操作还很远,但它把研究边界往前推了一大截。
#七、第六阶段:模仿学习回潮——因为真实机器人不能总靠 trial-and-error
随着大家真正把算法往硬件上落,会越来越清楚地看到:
- RL 很强,但真实世界试错太贵
- 人类示范其实是非常高价值的数据源
- 许多任务更适合 imitation / behavior cloning / offline learning 起步
于是具身智能开始明显从“纯 RL 驱动”转向“RL + imitation + offline data”混合范式。
#经典工作 7:ACT / ALOHA(2023)
论文: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
链接: https://arxiv.org/abs/2304.13705
#它之前的问题是什么
很多精细操作任务在真实世界中很难学,原因包括:
- 精度要求高
- 误差会累积
- 双臂协调难
- 硬件和传感器昂贵
- demonstrations 本身可能非平稳
#它想解决什么
它要解决的是:
低成本硬件能不能通过高质量示范学习,做出高精度、闭环、双臂精细操作。
ACT 的关键点在于 action chunking,它不是每一步都只预测一个原子动作,而是学习动作片段,从而缓解模仿学习中的误差累积和抖动。
#它为什么重要
这篇工作非常具代表性,因为它说明了一个现实趋势:
- 具身智能的进展,不一定只来自更大的 RL 算法
- 也来自更聪明的数据采集、更低成本的平台和更适合控制的动作表示
它推动了低成本具身智能实验平台和 imitation-first 路线的快速扩散。
#八、第七阶段:Diffusion Policy——解决多模态动作分布与稳定控制
#经典工作 8:Diffusion Policy(2023)
论文: Visuomotor Policy Learning via Action Diffusion
链接: https://arxiv.org/abs/2303.04137
#它之前的问题是什么
传统 behavior cloning 常常有一个老问题:
- 一个观测下可能对应多种合理动作
- 直接回归平均动作会导致动作变钝、犹豫、失败
尤其在机器人操作里,动作分布天然是多峰的。
#它想解决什么
Diffusion Policy 的核心问题是:
机器人策略能不能像生成模型一样,去建模复杂、多模态的动作分布,而不是只做简单均值回归。
#它的重要性
这很关键,因为它把生成模型范式带入了 robot policy learning:
- diffusion 不只是生成图像视频
- 也可以生成动作序列
- 并且能更稳定地表达复杂操作策略
这条线后来对很多操作策略模型影响很大,也成为模仿学习与生成模型结合的重要代表。
#九、第八阶段:具身智能开始 foundation model 化
到这里,领域发生了一个质变。
前面的具身智能研究大多还是:
- 某个任务一个模型
- 某台机器人一个策略
- 某个实验室一个数据集
这显然不够“智能”。真正的智能如果想在现实世界里成立,就必须问:
机器人能不能像 NLP / CV 那样,也有通用预训练模型和跨任务迁移能力?
这就是机器人 foundation model 的起点。
#经典工作 9:RT-1(2022/2023)
论文: Robotics Transformer for Real-World Control at Scale
链接: https://arxiv.org/abs/2212.06817
#它之前的问题是什么
机器人学习长期有个结构性问题:
- 数据少
- 每个任务都像重新开荒
- 泛化能力差
- 模型容量和数据规模始终上不去
#RT-1 在解决什么
RT-1 的关键主张是:
机器人也应该像别的领域那样,用大规模、多任务、任务无关数据训练高容量模型。
它把 transformer、开放式任务训练和真实机器人数据规模化结合起来,明确提出:
- 数据规模
- 模型规模
- 数据多样性
对机器人泛化非常关键。
#它的历史地位
RT-1 的意义,不只是一个性能点,而是它让“robot foundation model”开始从口号变成可验证方向。
#十、第九阶段:从机器人 transformer 到 VLA——让互联网语义知识进入控制回路
RT-1 解决的是“机器人数据规模化预训练”问题,但还有一个更大的问题:
- 机器人数据再大,也远远不如互联网图文语义数据
- 机器人是否可以直接吃到 VLM / LLM 的语义知识红利?
#经典工作 10:RT-2(2023)
论文: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
链接: https://arxiv.org/abs/2307.15818
#它之前的问题是什么
RT-1 虽然泛化更强,但它的语义世界仍主要由机器人轨迹数据决定。问题是:
- 机器人轨迹数据很难覆盖开放世界语义
- 很多常识和推理能力,其实已经在互联网大模型里学到了
#RT-2 在解决什么
RT-2 的核心问题是:
视觉语言模型的互联网知识,能不能直接迁移到机器人控制。
它通过把动作表示成文本 token,让同一个模型同时处理:
- 视觉语言任务
- 机器人控制任务
从而形成 vision-language-action 模型。
#为什么它是拐点
RT-2 之所以重要,是因为它改变了具身智能的叙事。
从这里开始,大家不再只是问:
- 机器人能不能学抓取
而是开始问:
- 机器人能不能利用 web-scale semantics
- 机器人能不能理解更抽象的语言指令
- 机器人能不能做一定程度的语义推理再执行动作
这一步,把具身智能和大模型真正并上了轨。
#十一、第十阶段:Open X-Embodiment——解决“每台机器人都是数据孤岛”
当大家开始做机器人基础模型,就会立刻碰到另一个现实问题:
- 不同机器人硬件不同
- 数据格式不同
- 动作空间不同
- 各实验室彼此割裂
如果数据不能汇聚,机器人 foundation model 就很难真正规模化。
#经典工作 11:Open X-Embodiment / RT-X(2023-2025)
论文: Open X-Embodiment: Robotic Learning Datasets and RT-X Models
链接: https://arxiv.org/abs/2310.08864
#它之前的问题是什么
在这之前,大多数机器人学习几乎都是:
- 每个实验室一套数据
- 每个平台一套接口
- 很难跨 embodiment 共训
#它想解决什么
它要解决的是:
机器人数据能不能像互联网数据那样汇聚起来,形成跨机器人、跨机构、跨任务的大规模学习语料。
它不仅提供数据格式和协作框架,还给出 RT-X 这类跨机器人模型,证明多机器人经验可以互相促进。
#历史意义
这篇工作的价值,不只是“数据更大”。
它代表一个更本质的转向:
- 从单体机器人学习,走向X-robot generalization
- 从单点模型,走向embodiment-agnostic pretraining
这是具身智能真正 foundation 化的基础工程。
#十二、第十一阶段:开源 VLA——把前沿具身智能从闭源 demo 拉回公共研究范式
#经典工作 12:OpenVLA(2024)
论文: OpenVLA: An Open-Source Vision-Language-Action Model
链接: https://arxiv.org/abs/2406.09246
#它之前的问题是什么
RT-2 很有影响力,但也有一个现实问题:
- 很多强 VLA 系统并不开放
- 外界很难复现、微调和真正大规模采用
#它在解决什么
OpenVLA 的目标是:
能不能把 vision-language-action 路线做成开放、可微调、可部署、可扩展的公共基础模型。
它重点解决了两类问题:
- VLA 模型开放性不足
- 新任务高效微调路径不清晰
#它为什么重要
OpenVLA 的意义在于把具身智能从“只有少数大厂能玩的系统”往公共研究生态里拉。
这非常关键,因为具身智能真正需要的是:
- 可共享模型
- 可共享微调方法
- 可共享 benchmark
- 可共享跨机器人经验
否则这个方向很容易只剩下 showcase,而不是可持续发展的科学与工程体系。
#十三、如果把整个具身智能的发展串成一条问题接力链
这是最值得记住的部分。
#1. DDPG
要解决:深度学习能不能进入连续控制,直接学机器人动作。
#2. DeepMind Control Suite
要解决:具身智能研究能不能有统一的连续控制 benchmark。
#3. SAC
要解决:深度 RL 能不能更稳定、更高效、更适合真实机器人。
#4. HIRO
要解决:长时序复杂任务能不能通过层级结构来学习。
#5. Domain Randomization
要解决:仿真训练出来的模型怎么跨过 reality gap。
#6. Learning Dexterous In-Hand Manipulation
要解决:高维灵巧操作能不能通过大规模仿真学习迁移到真实机器人。
#7. ACT / ALOHA
要解决:低成本硬件能不能通过模仿学习做精细双臂操作。
#8. Diffusion Policy
要解决:机器人策略能不能更好建模多模态动作分布,减少平均化动作问题。
#9. RT-1
要解决:机器人能不能像 NLP/CV 一样依赖大规模多任务预训练获得泛化。
#10. RT-2
要解决:互联网视觉语言知识能不能直接迁移到机器人动作控制。
#11. Open X-Embodiment / RT-X
要解决:不同机器人和机构之间的数据孤岛,能不能汇聚成跨 embodiment 的通用训练语料。
#12. OpenVLA
要解决:VLA 能不能开放、可微调、可部署,成为公共研究基础设施。
这条链看完,领域逻辑就清楚了:
从“机器人怎么被控制”,到“机器人怎么被学习出来”,再到“机器人怎么依靠大规模数据和多模态模型形成通用能力”。
#十四、今天的具身智能,核心竞争点已经变了
到 2026 这个时间点,具身智能最前沿比的已经不再只是:
- 某个单任务成功率
- 某个控制算法在 benchmark 上多几分
真正比的是这些更基础的能力:
#1. 数据规模与多样性
谁拥有更多:
- 真实机器人轨迹
- 多任务示范
- 多机器人平台数据
- 语言标注与语义信息
谁就更有希望做出强 generalist policy。
#2. 动作表示与控制接口
动作不是简单输出一个连续向量就完了。
今天大家越来越重视:
- action chunking
- diffusion action generation
- tokenized action
- horizon-based planning
因为动作表示本身会显著影响稳定性和泛化。
#3. 感知-语言-动作统一建模
具身智能已经不再是单纯的视觉控制问题。
它正在变成:
- 视觉理解
- 语言理解
- 操作控制
- 世界知识
这四者统一建模的问题。
#4. 跨 embodiment 泛化
真正难的问题是:
- 在 A 机器人上学到的经验
- 能否迁移到 B 机器人、C 夹爪、D 场景
这决定了机器人基础模型能不能像语言模型那样“越训越通用”。
#5. 真正进入开放世界
开放世界意味着:
- 非结构化家居与工业环境
- 新物体
- 新指令
- 接触、遮挡、失败恢复
- 长任务与多阶段执行
这仍然是具身智能最难的战场。
#十五、为什么“具身”这件事比大模型想象得更难
很多人容易把具身智能理解成:
给大模型加摄像头和机械臂。
但真正难的地方在于,具身系统必须满足四个同时成立的条件:
#1. 语义理解得对
它得知道你让它干什么。
#2. 感知估计得准
它得看清环境、物体、相对关系和可操作区域。
#3. 动作执行得稳
它得在噪声、摩擦、延迟、控制误差下把动作做成。
#4. 失败还能恢复
它不能一次抓空就彻底崩掉。
而今天很多系统在前两项上进步很大,但在后两项上仍然脆弱。
所以从本质上说:
具身智能的问题,不只是“会不会想”,而是“想出来的东西能不能在物理世界里闭环成立”。
#十六、今天最关键的未解问题是什么
虽然 2026 已经很热,但具身智能远远没有 solved。
#1. 长时序任务仍然很难
像“整理桌面”“做饭的一步”“取物-开门-放置-关门”这种任务,往往需要:
- 多阶段规划
- 中间状态保持
- 失败恢复
- 持续感知更新
现有系统在短技能上进步快,在长任务上还很脆。
#2. 数据仍然是最大瓶颈之一
互联网有海量文本图像,但没有同等规模的高质量机器人交互数据。
所以具身智能的数据问题,比 LLM 严峻得多。
#3. 世界模型与操作之间还没真正打通
很多系统能感知、能规划、能局部操作,但还没有形成稳定统一的 world model → skill execution 闭环。
#4. 仿真与现实之间仍有结构性鸿沟
sim2real 进步很大,但接触丰富、长尾物体、变形体、遮挡环境依旧困难。
#5. 泛化仍然不够“开放世界”
今天很多 generalization 更像:
- 同分布附近泛化
- 相似任务泛化
- 已见硬件附近泛化
离真正无缝开放世界泛化还有很大距离。
#十七、我对 2026 这个时间点的判断
如果你问我:到 2026 今天,具身智能最本质的变化是什么?
我的判断是:
具身智能已经从“机器人学习的一组技术”,转向“机器人基础模型 + 真实系统工程”的综合竞争。
现在真正重要的不再是某篇论文单点把成功率提了多少,而是:
- 谁能收集并组织更大规模高质量机器人数据
- 谁能把语言、视觉、动作统一建模
- 谁能做跨机器人共享能力
- 谁能把策略真正稳定落到物理硬件上
- 谁能处理长任务和失败恢复
也就是说,具身智能今天已经进入“基础设施战争”阶段。
这很像视频生成在走向 foundation model 时发生的变化:
- 单点 SOTA 仍重要
- 但真正拉开差距的是整套系统栈
而具身智能的这套系统栈更加复杂,因为它还多了:
- 硬件
- 实时控制
- 接触物理
- 安全与鲁棒性
#十八、最后用一句话概括整个发展脉络
如果非要把这篇长文压成一句话,那就是:
具身智能的发展逻辑,本质上是在不断把“会感知、会理解、会决策”的软件智能,压进受物理约束的真实世界里,最终逼着模型从单任务控制器成长为能够跨任务、跨机器人、跨场景泛化的行动智能体。
而 2026 的前沿竞争,已经明显转向:
- 机器人基础模型
- vision-language-action 统一建模
- 跨 embodiment 数据汇聚
- 长时序任务与开放世界泛化
这才是理解具身智能最重要的主线。
#参考论文与里程碑
- Continuous control with deep reinforcement learning (DDPG, 2015)
https://arxiv.org/abs/1509.02971
- DeepMind Control Suite (2018)
https://arxiv.org/abs/1801.00690
- Data-Efficient Hierarchical Reinforcement Learning / HIRO (2018)
https://arxiv.org/abs/1805.08296
- Soft Actor-Critic Algorithms and Applications (SAC, 2018)
https://arxiv.org/abs/1812.05905
- Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World (2017)
https://arxiv.org/abs/1703.06907
- Learning Dexterous In-Hand Manipulation (2018)
https://arxiv.org/abs/1808.00177
- Robotics Transformer for Real-World Control at Scale (RT-1, 2022/2023)
https://arxiv.org/abs/2212.06817
- Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware / ACT, ALOHA (2023)
https://arxiv.org/abs/2304.13705
- Visuomotor Policy Learning via Action Diffusion / Diffusion Policy (2023/2024)
https://arxiv.org/abs/2303.04137
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
https://arxiv.org/abs/2307.15818
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models (2023-2025)
https://arxiv.org/abs/2310.08864
- OpenVLA: An Open-Source Vision-Language-Action Model (2024)