#从罗福莉访谈看 Agent 时代的技术范式迁移:后训练、长上下文、框架自进化与研究机会

#0. 核心判断

这份访谈最重要的技术信息不是“OpenClaw 很火”,也不是“1T 模型是入场券”,而是一个更底层的判断:

大模型竞争正在从“预训练得到一个会聊天的模型”,转向“模型、Agent 框架、长上下文、工具环境、后训练系统共同演化,形成可行动、可自迭代的生产力系统”。

如果把过去几年分成两个阶段:

  • Chat 时代:核心变量是 Pre-train scaling、数据质量、模型结构、SFT/RLHF、短上下文对话体验。
  • Agent 时代:核心变量变成 Long Context、Code/Tool 环境、Post-train scaling、Agent RL Infra、Skills/Memory/Workflow、框架自进化、多模型编排和成本效率。

罗福莉的访谈给出了一个非常清晰的产业一线视角:Anthropic 的路径被认为是正确的,国内团队正在进入追赶窗口;预训练代差变小之后,真正的赛点变成 Agent 上怎么做好 RL scaling。

对我目前关注的 LLM Agent、代码智能、model-based RL / Dreamer for LLM Agent、潜空间推理、自演化代码 Agent 来说,这篇访谈有几个高价值启发:

  1. Code 是 Agent 时代最强的泛化场景:它既有长上下文、强结构、可验证环境,又天然适合长程任务。
  2. 后训练系统正在从 rollout engine 变成 Agent-centric system:RL Infra 不再只是模型生成 token,而要管理工具、环境、CPU/GPU、存储、失败恢复和异构资源。
  3. Agent 框架不是“壳”,而是模型能力的外部认知结构:Memory、Skills、Context 编排、多模型调度、主动性和评估共同决定模型实际能力。
  4. 未来的自学习不是模型单独自举,而是模型与 Agent 框架同步进化:模型改框架,框架改训练数据,训练数据再改模型。
  5. 人的经验会以 Skills / Workflow / Environment 的形式进入训练闭环:这是一种区别于互联网预训练语料的“另类智能数据”。

#1. 技术观点提炼

#1.1 从 Pre-train 主导的 Chat 时代,转向 Post-train 主导的 Agent 时代

访谈中最核心的一句话是:

从 Pre-train 主导的 Chat 时代,转向 Post-train 主导的 Agent 时代。

这里的“Post-train”不是传统意义上的 SFT/RLHF,而是指更广义的 Agent 后训练:模型要理解复杂框架、使用工具、多轮交互、调用子 Agent、读写文件、持久记忆、处理长上下文,并在真实环境里完成任务。

过去 Chat 时代的后训练目标相对简单:

  • 指令跟随;
  • 安全对齐;
  • 偏好对齐;
  • 数学/代码 reasoning;
  • 长链思考输出。

而 Agent 时代的后训练目标变成:

  • 在复杂 Agent 框架中稳定行动;
  • 理解 Skills、Memory、System Context;
  • 会规划、执行、检查、回滚;
  • 会利用外部工具和环境反馈;
  • 会在长程任务中维持目标一致性;
  • 会适配不同框架:Claude Code、OpenClaw、OpenCode、Kilo Code 等;
  • 会在成本、速度、成功率之间做策略选择。

这解释了为什么她说现在资源分配可能从 Chat 时代的 研究:Pre-train:Post-train = 3:5:1,转向 3:1:1。这不是说预训练不重要,而是说 Agent 时代的后训练成为和预训练同等重量的战场。

#1.2 Agent 框架不是产品 UI,而是模型能力的外部操作系统

访谈里对 OpenClaw 的判断非常值得注意:她最初以为 OpenClaw 只是 Claude Code + IM + UI,但后来发现它真正重要的是“精细编排的 Context”和“弥补行动缺陷”的框架设计。

一个好的 Agent 框架至少包含:

  • 持久化 Memory:跨 session 保存用户偏好、项目状态、长期上下文;
  • Skills / Workflow:把人的经验、组织规范、任务流程沉淀成可复用操作程序;
  • 多消息通道:IM、文件、浏览器、终端、定时任务、心跳任务;
  • 主动性机制:定时任务、提醒、自动检查、持续迭代;
  • 多模型调度:根据任务选择视频理解、语音、代码、文本、推理模型;
  • Context 管理:决定什么静态信息、动态信息、历史信息应该进入上下文;
  • 评估与自迭代:通过用户反馈、高价值任务失败、框架自修复持续改善。

因此 Agent 框架不是“壳”。更准确地说,它是模型的外部认知操作系统

模型提供 token-level intelligence;Agent 框架提供 action-level cognition。

这对研究很关键。很多所谓“模型能力”其实是模型 + 框架 + 记忆 + 工具 + 环境共同产生的。单独 benchmark 一个裸模型,已经越来越不能代表真实生产力。

#1.3 OpenClaw 的启发:框架可以激发中层模型上限

访谈中一个很重要的经验观察是:顶尖模型可以用来改造 Agent 框架,而改造后的框架又能显著提升中层模型的表现。

她的说法大意是:先用 Claude Opus 4.6 高强度改 OpenClaw 的 Memory、多 Agent、Workflow 等架构;框架变好后,再切到 Sonnet、国内模型、甚至小模型,也能表现得非常强。

这背后有一个值得研究的机制:

  1. 顶尖模型负责探索高质量框架设计;
  2. 框架把经验固化为 Memory / Skills / Workflow / Routing;
  3. 中层模型在更好的外部结构中行动;
  4. 中层模型的有效能力被“外部脚手架”放大;
  5. 人类和模型继续改框架,形成自增强循环。

这对“自演化代码 Agent”非常重要:

自演化不一定首先发生在模型权重里,也可能先发生在 Agent 框架、Skills、Memory、环境和评估系统里。

也就是说,未来自学习系统可能是“权重学习 + 框架学习 + 技能学习 + 环境学习”的复合体。

#1.4 Code 为什么是最具泛化力的 Agent 训练场?

访谈中关于 Code 泛化性的判断非常重要。她给出几个原因:

  1. Code 天然长上下文:真实项目跨文件、跨模块、跨历史修改,远比普通聊天更接近 128K 到 1M 上下文。
  2. Code 依赖密集:书籍也很长,但信号发散;代码文件之间结构关联强,适合训练长程依赖建模。
  3. Code 有环境和 verifier:编译、测试、运行、benchmark、静态分析都能提供反馈。
  4. Code 是长程任务:真实软件开发涉及理解需求、读代码、设计方案、修改、测试、debug、回滚。
  5. Code 的训练闭环更完整:模型可以生成代码,环境验证结果,再反过来修正策略。

这和我之前对“数学/代码数据互相迁移”的判断一致:Code 是形式化、可执行、可验证、长上下文、强结构的任务环境,因此在不同范式中都戳中关键点:

  • Pre-train 阶段:Code 提供长上下文和结构化 token 分布;
  • Reasoning 阶段:Code/Math 提供可验证 reward;
  • Agent 阶段:Code 提供真实环境、长程交互和任务闭环;
  • Self-evolution 阶段:Code Agent 可以修改自己的工具链和框架。

她提到 R1 让她意识到 Code/Math reasoning 可以泛化,而 Agent 时代又进一步证明 Code 是更优雅的路径。这对代码智能研究是强信号:代码不是垂直应用,而是训练通用 Agent 能力的核心环境。

#1.5 长上下文不是为了“塞满 1M token”,而是为了激活长程行动能力

MiMo-V2 系列的一个核心技术方向是 Long Context efficiency。访谈中提到:Agent 时代 Long Context 很关键,因为任务本身变长,Context 越长越可能产生更高层次的智能。

但她也指出一个现实问题:真正 1M 上下文的训练数据很难构造,完整 rollout 一个 1M trajectory 成本极高,即使 80-100 TPS,也可能要一两个小时。

这带来一个重要判断:

训练阶段未必真的要大量完整 1M trajectory;如果预训练已经具备 1M context 能力,后训练只需要用相关任务“激活”它,就能在长上下文中表现出能力。

这对 long-horizon agent RL 很关键。直接在超长轨迹上做端到端 RL 成本极高,可能并不是短期可扩展路径。更现实的 recipe 是:

  1. 预训练阶段用长上下文数据建立长程依赖能力;
  2. 后训练阶段用较短但结构相似的任务激活能力;
  3. Agent 框架用 memory、compression、plan、checkpoint 降低实际上下文压力;
  4. 只在关键场景上做超长 trajectory 评估或少量训练。

这与我对“超长 agent 轨迹直接 RL 的可持续性”的怀疑一致:长程能力需要训练,但不一定靠完整长程 rollout 直接堆出来。

#1.6 Agent RL Infra:从推理引擎中心转向 Agent 中心

这是整篇访谈里最值得研究的一段。

在 Code/Math reasoning 阶段,RL Infra 的核心是 rollout 推理引擎:模型长链思考、生成答案、verifier 打分,然后优化。

但 Agent 阶段完全不同。系统从:

以 Rollout 推理引擎为核心

变成:

以 Agent 为核心的复杂系统

这个系统需要处理:

  • Agent 框架本身可能是黑盒或白盒;
  • 工具调用可能失败;
  • 长任务中途可能超时或中断;
  • 任务 reward 可能延迟、稀疏、模糊;
  • 训练和推理可能在异构集群上;
  • 不只是 GPU,还要管理 CPU、存储、浏览器、沙箱、文件系统;
  • 环境状态会变化,复现困难;
  • 失败原因可能无法精确归因。

因此 Agent RL Infra 必须容忍模糊性。Pre-train infra 追求确定性、稳定性、loss spike 可解释;Agent RL infra 则要能在大量不确定、失败、异构资源、非稳定环境中仍然推进训练。

这对 model-based RL / Dreamer for LLM Agent 有直接启发:

  • 如果真实环境 rollout 太贵、太慢、太不稳定,就需要学一个环境模型或任务模型;
  • 需要把 Agent trajectory 抽象为状态、动作、观察、工具反馈、记忆更新;
  • 需要将失败原因从“环境噪声”中分离出来;
  • 需要在 latent space 中做规划、压缩和回放,而不是每次都完整跑真实环境。

换句话说,Agent RL Infra 的复杂性本身就是 model-based RL 介入的理由。

#1.7 Skills 是人类经验进入模型系统的新数据形态

访谈中对 Skills 的判断也很关键:Skills 定义了一套执行规范,而这些规范很难出现在预训练数据里,因为它们往往来自企业内部、真实业务、组织流程和个人经验。

这意味着 Skills 不是简单 prompt,而是一种新的数据形态:

  • 它来自真实任务;
  • 它沉淀专家经验;
  • 它指导模型行动;
  • 它可被复用、修改、版本化;
  • 它可以成为后训练数据来源;
  • 它让人主动贡献“让模型成功完成任务的方式”。

从训练角度看,Skills 可能是连接人类知识与 Agent 行动的中间层:

Pre-train 学公开互联网知识;Skills 学组织和个体的私有操作智能。

这和我现在搭建的中心化 AI 共享记忆 hub、stable memory、remember 命令、Skills 管理非常相关。长期看,用户和 Agent 的交互不只是产生聊天记录,而是在共同沉淀可迁移的操作程序。

#1.8 多模型编排:效果、成本、效率的乘积

MiMo-V2 Pro / Omni / TTS 的讨论给出一个清晰观点:未来不一定是一个模型统一吃掉所有模态,而是多个模型在 Agent 框架中被有效编排。

她提到:

  • Pro 做理解和认知;
  • Omni 做感知;
  • TTS 做表达;
  • 不同模型用于不同环节,主要出于成本、速度、价格考虑;
  • Agent 革命本质是生产力革命,必须看端到端完成率与成本效率。

这对多模态 Agent 的判断很实际:多模态是否“促进智能”不是唯一问题,更关键的是它是否让 Agent 能行动。Agent 需要感知世界、理解视频/声音/图像、产生表达,但这些能力可以通过框架编排多个模型实现。

这也说明未来的模型训练和 Agent 框架会深度耦合:模型不是孤立部署,而是在生态中承担不同角色。

#1.9 组织结构也是技术系统的一部分

访谈后半部分谈组织,但其实仍然是技术观点:在范式快速变化时,组织结构决定技术探索速度。

几个关键判断:

  • 平权有利于创新;
  • 没有固定小组,避免把人的创造力锁死在场景里;
  • 预训练的人做后训练有优势,因为他们更懂数据多样性;
  • 后训练需要 diversity,而不是只盯单一 benchmark;
  • 好奇心、热爱、频繁使用模型,比已有经验更重要;
  • 环境比经验重要,人在高标准环境中可以快速习得能力;
  • 群体智能可以让框架几小时迭代一轮。

这对科研方法也有启发:Agent 时代的研究组织可能会越来越像一个多 Agent 系统:每个人、每个 Agent、每个 skill、每个实验都在共享上下文、互相蒸馏、快速迭代。


#2. 对我目前研究方向的帮助

#2.1 对 LLM Agent / Agentic RL 的启发

访谈最直接支持的方向是:Agent 的核心训练问题已经从“让模型会用工具”升级为“让模型适应复杂 Agent 框架并在其中自我改进”。

可研究问题包括:

  1. Agent 框架理解能力如何训练?

- 模型如何理解 memory、skills、tools、subagents、cron、message channels?

- 如何构造多框架、多工具、多环境的数据?

  1. Agent RL 的 state/action/reward 如何定义?

- action 不只是 token,也包括工具调用、文件修改、任务分解、记忆写入;

- reward 不只是最终答案,也包括任务推进度、环境状态、用户满意度、成本和安全。

  1. 如何做 Agent trajectory compression?

- 超长任务不能把所有信息塞进上下文;

- 需要把 trajectory 压缩成可训练、可回放、可规划的状态表示。

  1. 如何处理失败归因?

- 工具错误、模型错误、环境错误、上下文缺失、框架 bug 混杂在一起;

- 需要自动 diagnose 和 credit assignment。

这些问题和 long-horizon credit assignment 高度相关。

#2.2 对 model-based RL / Dreamer for LLM Agent 的启发

访谈中反复出现两个矛盾:

  • 长程真实 Agent rollout 很贵、很慢、容易中断;
  • 但 Agent 后训练又必须在真实或近真实环境中进行。

这正是 model-based RL 的切入点。

一个可能的研究框架:

  1. 收集真实 Agent trajectories;
  2. 把工具调用、文件状态、测试结果、用户反馈转成结构化 transition;
  3. 学一个 world model / task model,预测下一步观察、任务进展、失败概率、成本;
  4. 在 latent space 中做 planning 或 imagination rollout;
  5. 只把高价值策略放回真实环境验证;
  6. 将真实反馈继续更新 world model。

这对应 Dreamer 的思想,但状态空间不是图像,而是:

  • repo state;
  • task spec;
  • memory state;
  • tool observations;
  • plan state;
  • user constraints;
  • verifier result。

访谈中“Agent 框架自迭代”和“模型改框架,框架再提升模型”也可以放入 model-based self-improvement 框架中理解。

#2.3 对潜空间推理的启发

访谈没有直接谈 latent reasoning,但有很多隐含连接。

Agent 任务太长,如果每一步都外化为自然语言,成本会非常高。未来可能需要:

  • latent plan;
  • latent task state;
  • latent memory retrieval;
  • latent verifier signal;
  • latent program representation;
  • latent multi-agent communication。

OpenClaw 这类框架目前更多依赖显式文本、Skills、Memory、工具调用。但随着任务变长,显式上下文会成为瓶颈。一个自然方向是:

把 Agent 轨迹中的高频结构压缩到 latent space,只在必要时外化为文本、代码或工具调用。

这可以连接到潜空间推理和通用上下文压缩器。

#2.4 对代码智能 / Self-evolving Code Agent 的启发

Code 被访谈明确视为最具泛化力的训练场。对代码 Agent 来说,下一步不应只做 HumanEval、SWE-bench,而要做更真实的长程软件开发:

  • 改框架;
  • 写测试;
  • 跑实验;
  • debug training infra;
  • 优化算子;
  • 重构 RL infra;
  • 多 Agent 并行验证 idea;
  • 从失败中沉淀 skill。

更进一步,Self-evolving Code Agent 的关键闭环可能是:

  1. Agent 使用当前框架完成任务;
  2. 失败被记录为 trace;
  3. Agent 总结失败原因,写入 skill / memory / test;
  4. Agent 修改自己的工具链或 workflow;
  5. 新框架提升后续任务成功率;
  6. 高质量轨迹反哺模型后训练。

这正是访谈中“模型与 Agent 框架同步往前走”的研究化表达。

#2.5 对个人工作流和研究方式的启发

访谈里最“可落地”的建议是:研究效率会被 Agent 极大加速,关键是 taste 和并行验证能力。

她提到过去一个 idea 从想到代码到评估可能要一两周,现在 Agent 帮助下一两小时就能做完,十个 idea 可以交给不同 subagent 并行做、交叉验证。

这对我目前的工作方式有直接启发:

  • 把研究问题拆成可由 subagent 独立推进的小实验;
  • 为每类任务沉淀 skills,而不是每次重新教;
  • 把失败案例写成评估集和 regression tests;
  • 建立个人 research memory hub,让不同设备、不同 Agent 共享稳定记忆;
  • 对每个研究方向维护“高价值任务池”,持续让 Agent 挑战边界;
  • 不只用 Agent 写代码,也用 Agent 设计评估、构造环境、复盘失败。

这与我的中心化 AI 共享记忆系统非常契合:记忆、Skills、任务轨迹、实验结果都可以成为个人级 Agent 自进化的数据资产。


#3. 我认为访谈中最值得警惕的地方

#3.1 “两年内 AGI”判断过于乐观,但方向值得重视

罗福莉认为两年内可能实现 AGI,这个判断我会保留。原因是 Agent 能力在生产力任务上会非常快地突破,但“AGI”定义太不稳定,而且真实世界行动、长期自主性、安全、价值对齐、机器人、科学发现等维度仍然很复杂。

更稳妥的说法是:

两年内很可能出现能替代大量白领工作流的 Agentic AI 系统;但是否称为 AGI,取决于定义。

这并不削弱访谈价值。真正重要的是:生产力范式变化可能已经足够大,不必等 AGI 定义达成共识。

#3.2 体感评估在范式转移早期有价值,但不能长期替代系统评估

她提到在路径刚转变时,可以短期忽略 benchmark,靠体感判断质变。这在早期探索时合理,因为 benchmark 往往滞后。

但长期看,Agent 领域必须建立更系统的评估:

  • 长程任务完成率;
  • 成本 / 时间 / token;
  • 中断恢复能力;
  • memory 正确性;
  • skill 迁移能力;
  • 多环境泛化;
  • 用户干预次数;
  • 安全与隐私;
  • 自迭代是否真的提高后续成功率。

否则 Agent 研究容易陷入 demo-driven development。

#3.3 Multi-Agent 现在更多提升效率,未必提升上限

访谈中有一个很诚实的判断:当前市场上的 Multi-Agent 很多有点“伪”。它们能提升速度、节省成本,但还没有清楚看到能提升能力上限。

这对研究很重要。Multi-Agent 真正的问题不是“多个模型互相聊天”,而是:

  • 如何分工;
  • 如何共享状态;
  • 如何避免错误扩散;
  • 如何做 cross-check;
  • 如何合并不同 agent 的局部发现;
  • 如何形成群体智能而不是群体噪声。

这可以成为一个独立研究方向:Multi-Agent credit assignment and coordination for long-horizon tasks


#4. 可以进一步展开的研究问题

结合访谈和我目前方向,后续最值得深入的题目有:

#4.1 Agent 框架作为可学习对象

过去我们训练模型适配固定环境;未来能否训练模型主动修改环境?

研究问题:

  • 如何表示 Agent 框架的状态?
  • 如何评价一次框架修改是否提升长期任务成功率?
  • 如何避免自修改带来退化?
  • Skills / Memory / Tools / Subagents 哪些最值得自动优化?

#4.2 Agent RL 的 world model

真实 agent rollout 成本高、不可控,是否能学一个任务世界模型?

研究问题:

  • 如何从 terminal/browser/file/tool traces 中学习 transition model?
  • 如何预测任务成功率、失败类型、剩余步骤?
  • 如何在 latent space 中模拟工具调用和 repo 修改?
  • 如何把 imagined rollouts 和真实 rollouts 混合训练?

#4.3 Code 作为通用 Agent 训练环境

Code 不是垂类,而是通用智能训练环境。

研究问题:

  • 什么类型的代码任务最能迁移到通用 Agent?
  • repo-level task 和 algorithmic task 的能力迁移差异是什么?
  • code RL 学到的是工具使用、规划、debug,还是 benchmark shortcut?
  • 如何设计能训练“自我改进”的代码环境?

#4.4 Skills 作为人类智能数据接口

Skills 是人主动贡献执行知识的接口。

研究问题:

  • 如何自动从成功/失败轨迹中抽取 skill?
  • 如何评估 skill 的泛化性?
  • 如何做 skill routing?
  • 如何避免 skill stale / wrong / overfit?
  • 如何把 skill 变成后训练数据?

#4.5 长上下文与压缩记忆

Agent 时代并不是无限扩上下文就行,关键是压缩与检索。

研究问题:

  • 哪些信息应进入 context,哪些应进入 memory,哪些应进入 latent state?
  • 如何训练模型判断上下文价值?
  • 如何将超长 trajectory 压缩成可复用经验?
  • 如何避免 memory contamination 和错误长期化?

#5. 对我当前工作流的具体建议

基于这篇访谈,我会把近期个人研究/工具系统的优先级调整为:

  1. 继续强化中心化记忆 hub:让稳定记忆、候选记忆、skills、研究笔记跨设备共享。
  2. 把高价值研究任务 Skill 化:文献调研、代码实验、benchmark 复现、失败复盘都应形成 skill。
  3. 建设 Agent 任务轨迹数据集:保留真实工具调用、文件修改、测试结果、人工反馈,用于后续分析和训练。
  4. 做 Code Agent 长程任务评估:不要只看小函数题,重点看 repo-level、debug、实验自动化、框架修改。
  5. 探索 Agent trajectory compression:把长任务压缩为 plan、state、decision points、failure modes。
  6. 尝试 subagent 并行研究流程:一个主 Agent 负责 taste 和裁决,多个 subagent 并行验证 idea。
  7. 把失败变资产:每次失败都沉淀为 regression test、skill patch 或 memory update。

这些都指向同一个目标:构造一个可以持续自我改进的个人研究 Agent 系统。


#6. 总结

这篇访谈的价值在于,它不是从外部观察 Agent 热潮,而是从一个正在训练 1T 级模型、正在搭 Agent 后训练系统、正在被 OpenClaw/Claude Code 改变研究工作流的人视角,描述范式迁移。

我认为最重要的五个结论是:

  1. Agent 时代的主战场是 Post-train + Agent RL scaling。
  2. Code 是最具泛化力的长程、可验证、强结构 Agent 训练环境。
  3. Agent 框架不是壳,而是模型能力的外部认知结构。
  4. 自学习大概率发生在模型与框架共同演化中,而不是模型权重单独自举。
  5. Skills / Memory / Workflow 是人类私有操作智能进入 AI 系统的新数据形态。

对我来说,最值得继续追的问题是:

如果未来 Agent 真能自我进化,那么它到底是在进化模型、进化框架、进化记忆、进化环境,还是进化这些东西之间的耦合关系?

我的判断是:真正的突破不会来自某一个孤立模块,而会来自“模型—框架—环境—人类反馈—训练系统”的闭环被打通。

这也是为什么 LLM Agent、model-based RL、潜空间推理、代码智能和共享记忆系统,其实并不是几个分散方向,而是同一个问题的不同切面:

如何让智能系统在长程环境中持续积累经验、压缩经验、复用经验,并最终改进自己。