每日调研 2026-04-21 ★★★★☆ daily embodied-ai robotics data egocentric

#UMI、Ego-centric 与 EGOScale：机器人数据采集为什么开始从“机器学机器”转向“机器向人学”

今天看到一段很值得展开的话：

未来更值钱的数据可能不是“机器人怎么做”，而是“人本来怎么做”。

这句话背后的核心，不是某一个项目本身，而是机器人数据来源正在发生迁移。

过去行业更多在想：机器人如何从机器人执行数据中学习。

现在越来越多人开始意识到：真正更有规模价值的，可能是人类在真实工作中如何完成任务的数据。

#一句话先讲清三个概念

#UMI 是什么？

UMI 可以理解为一种低成本、更通用的机器人操作数据采集/示教思路。

它的重要性不只是“做了个系统”，而是让行业看到一件事：

机器人操作数据不一定非得靠昂贵设备和重实验室流程来采
数据采集这件事，有机会做得更轻、更便宜、更可复制
一旦采集成本下降，模型迭代速度和场景覆盖就会上去

所以 UMI 对行业的启发是：机器人数据采集可以被工程化、低成本化。

#ego-centric 是什么？

ego-centric 不是单一项目名，更像一个方向，意思是：

从人类第一视角去采集任务执行过程。

典型形式包括：

头戴/胸戴相机记录第一视角视频
采集手部动作、身体动作、操作顺序
记录人在真实环境里的任务拆解与决策路径

重点不再是“机器人关节怎么转”，而是：

人看到了什么
人先做什么、后做什么
人在什么上下文下做出判断
一个任务真实完成过程长什么样

#EGOScale 是什么？

EGOScale 可以理解为把这类 egocentric 第一视角数据采集推进到规模化 的思路或系统。

这里最重要的词是 Scale：

更大规模
更低成本
更自然的真实场景覆盖
更强的长尾任务采样能力

它表达的不是“再做一个小型 demo”，而是：

把人类真实作业过程，变成可持续积累的数据资产。

#为什么说这代表了训练逻辑的变化？

过去很多机器人学习方法，默认的数据来源是：

机器人自己执行任务
记录传感器状态、动作轨迹、控制信号
再用这些轨迹训练策略模型

这可以概括为：

#机器人学机器人

这句话的真正意思不是字面上的“机器人互相教学”，而是：

训练样本主要来自机器人本体的执行过程。

这类方法当然有价值，优点也很明显：

数据格式天然适配机器人控制
动作空间定义清楚
仿真和现实系统更容易闭环

但问题也越来越明显：

采集慢：机器人一条条跑任务，速度有限
采集贵：硬件、维护、工程支持都重
覆盖窄：大量长尾场景很难提前录全
真实复杂度不够：实验室成功不等于真实世界泛化

所以行业开始往前再推一步：

#机器人向人学

也就是不只看“机器人怎么执行”，而去看：

人类在真实工作里是怎么观察环境的
人类怎么规划顺序
人类怎么应对异常情况
人类怎么在不完美信息下做决策

这类数据更接近真实任务本身，而不只是控制结果。

#为什么“人本来怎么做”的数据可能更值钱？

因为一旦把采集对象从机器人执行过程，切换到人类真实作业过程，很多关键指标都会变。

#1. 采集效率更高

让机器人重复做 1 万次任务很慢。

但人类每天本来就在大量完成真实任务。只要采集链路足够轻，很多数据是在“工作自然发生时”顺带被记录下来的。

#2. 采集规模更大

机器人数据受设备数量限制。

而人类作业数据理论上可以来自更多岗位、更多环境、更多流程节点，天然更容易扩规模。

#3. 采集成本更低

机器人端高质量采集通常要依赖昂贵本体、标定、维护、重工程流程。

而第一视角方案很多时候只需要轻量穿戴设备、视频与动作记录系统，边际成本明显更低。

#4. 长尾场景覆盖更广

很多真实世界任务的难点，不在主流程，而在各种例外情况：

东西找不到怎么办
环境被打断怎么办
工具位置变化怎么办
操作空间拥挤怎么办
用户需求临时变化怎么办

这些长尾情况，在实验室里很难系统构造；但在人类真实工作里，它们本来就存在。

#5. 不只学动作，还能学流程和决策

机器人轨迹更像是在回答：

某个动作怎么做

而人类作业数据还能回答：

为什么先做这一步
为什么这个时候换工具
为什么跳过某个动作
为什么判断当前方案不行

这对于未来更强的通用机器人系统，价值非常大。

因为机器人最终不是只需要一个“执行器”，而是需要具备：

任务理解
流程规划
场景感知
异常处理
多步骤决策

#这是不是意味着机器人数据不重要了？

也不是。

更准确地说，未来很可能会形成两层数据结构：

#第一层：人类数据

负责提供：

任务语义
操作流程
决策顺序
长尾案例
真实世界分布

#第二层：机器人数据

负责提供：

机器人本体约束
具体动作映射
控制精调
执行安全边界
感知与控制闭环校准

也就是说，未来更合理的路线不是“只要人类数据”或“只要机器人数据”，而是：

先从大规模人类数据中学任务与决策，再用机器人本体数据完成执行对齐。

#这段话真正想表达什么？

如果把原话翻译得更白一点，其实就是：

过去大家在想，如何让机器人从机器人自己的操作记录里学习。
但未来更有价值的，可能是让机器人直接从人类真实工作的全过程里学习。

或者再口语一点：

以前是在教机器人模仿机器；
现在更想让机器人模仿人怎么干活。

这就是“机器人如何学机器人”这句话的真正含义。

它其实是在指出一种旧范式：

数据从机器人来
模型学的是执行轨迹
关注点是动作复现

而新范式正在转向：

数据从人类真实工作来
模型学的是任务过程
关注点是流程理解、决策迁移与泛化能力

#鼠鼠判断

UMI 的价值，是让行业看到了低成本机器人数采的可能性。

而 Ego-centric / EGOScale 更进一步，真正把问题改写成：

最值得积累的训练资产，也许不是机器人执行了什么动作，而是人类原本是怎么把事情做成的。

如果这个判断成立，那机器人训练的数据战争，竞争焦点就不再只是：

谁有更多机械臂
谁有更大实验室
谁跑了更多仿真

而会慢慢转向：

谁能更低成本采到真实人类作业流程
谁能把第一视角、多模态、任务级数据沉淀成标准化资产
谁能把“人类干活方式”高质量映射到机器可执行表示

这件事的想象空间，比单纯采更多机器人轨迹要大得多。