主题归档 2026-04-30 ★★★★★ LLM Agent 后训练 OpenClaw 长上下文代码智能自进化智能组织与科研

#从罗福莉访谈看 Agent 时代的技术范式迁移：后训练、长上下文、框架自进化与研究机会

#0. 核心判断

这份访谈最重要的技术信息不是“OpenClaw 很火”，也不是“1T 模型是入场券”，而是一个更底层的判断：

大模型竞争正在从“预训练得到一个会聊天的模型”，转向“模型、Agent 框架、长上下文、工具环境、后训练系统共同演化，形成可行动、可自迭代的生产力系统”。

如果把过去几年分成两个阶段：

Chat 时代：核心变量是 Pre-train scaling、数据质量、模型结构、SFT/RLHF、短上下文对话体验。
Agent 时代：核心变量变成 Long Context、Code/Tool 环境、Post-train scaling、Agent RL Infra、Skills/Memory/Workflow、框架自进化、多模型编排和成本效率。

罗福莉的访谈给出了一个非常清晰的产业一线视角：Anthropic 的路径被认为是正确的，国内团队正在进入追赶窗口；预训练代差变小之后，真正的赛点变成 Agent 上怎么做好 RL scaling。

对我目前关注的 LLM Agent、代码智能、model-based RL / Dreamer for LLM Agent、潜空间推理、自演化代码 Agent 来说，这篇访谈有几个高价值启发：

Code 是 Agent 时代最强的泛化场景：它既有长上下文、强结构、可验证环境，又天然适合长程任务。
后训练系统正在从 rollout engine 变成 Agent-centric system：RL Infra 不再只是模型生成 token，而要管理工具、环境、CPU/GPU、存储、失败恢复和异构资源。
Agent 框架不是“壳”，而是模型能力的外部认知结构：Memory、Skills、Context 编排、多模型调度、主动性和评估共同决定模型实际能力。
未来的自学习不是模型单独自举，而是模型与 Agent 框架同步进化：模型改框架，框架改训练数据，训练数据再改模型。
人的经验会以 Skills / Workflow / Environment 的形式进入训练闭环：这是一种区别于互联网预训练语料的“另类智能数据”。

#1. 技术观点提炼

#1.1 从 Pre-train 主导的 Chat 时代，转向 Post-train 主导的 Agent 时代

访谈中最核心的一句话是：

从 Pre-train 主导的 Chat 时代，转向 Post-train 主导的 Agent 时代。

这里的“Post-train”不是传统意义上的 SFT/RLHF，而是指更广义的 Agent 后训练：模型要理解复杂框架、使用工具、多轮交互、调用子 Agent、读写文件、持久记忆、处理长上下文，并在真实环境里完成任务。

过去 Chat 时代的后训练目标相对简单：

指令跟随；
安全对齐；
偏好对齐；
数学/代码 reasoning；
长链思考输出。

而 Agent 时代的后训练目标变成：

在复杂 Agent 框架中稳定行动；
理解 Skills、Memory、System Context；
会规划、执行、检查、回滚；
会利用外部工具和环境反馈；
会在长程任务中维持目标一致性；
会适配不同框架：Claude Code、OpenClaw、OpenCode、Kilo Code 等；
会在成本、速度、成功率之间做策略选择。

这解释了为什么她说现在资源分配可能从 Chat 时代的 研究:Pre-train:Post-train = 3:5:1，转向 3:1:1。这不是说预训练不重要，而是说 Agent 时代的后训练成为和预训练同等重量的战场。

#1.2 Agent 框架不是产品 UI，而是模型能力的外部操作系统

访谈里对 OpenClaw 的判断非常值得注意：她最初以为 OpenClaw 只是 Claude Code + IM + UI，但后来发现它真正重要的是“精细编排的 Context”和“弥补行动缺陷”的框架设计。

一个好的 Agent 框架至少包含：

持久化 Memory：跨 session 保存用户偏好、项目状态、长期上下文；
Skills / Workflow：把人的经验、组织规范、任务流程沉淀成可复用操作程序；
多消息通道：IM、文件、浏览器、终端、定时任务、心跳任务；
主动性机制：定时任务、提醒、自动检查、持续迭代；
多模型调度：根据任务选择视频理解、语音、代码、文本、推理模型；
Context 管理：决定什么静态信息、动态信息、历史信息应该进入上下文；
评估与自迭代：通过用户反馈、高价值任务失败、框架自修复持续改善。

因此 Agent 框架不是“壳”。更准确地说，它是模型的外部认知操作系统：

模型提供 token-level intelligence；Agent 框架提供 action-level cognition。

这对研究很关键。很多所谓“模型能力”其实是模型 + 框架 + 记忆 + 工具 + 环境共同产生的。单独 benchmark 一个裸模型，已经越来越不能代表真实生产力。

#1.3 OpenClaw 的启发：框架可以激发中层模型上限

访谈中一个很重要的经验观察是：顶尖模型可以用来改造 Agent 框架，而改造后的框架又能显著提升中层模型的表现。

她的说法大意是：先用 Claude Opus 4.6 高强度改 OpenClaw 的 Memory、多 Agent、Workflow 等架构；框架变好后，再切到 Sonnet、国内模型、甚至小模型，也能表现得非常强。

这背后有一个值得研究的机制：

顶尖模型负责探索高质量框架设计；
框架把经验固化为 Memory / Skills / Workflow / Routing；
中层模型在更好的外部结构中行动；
中层模型的有效能力被“外部脚手架”放大；
人类和模型继续改框架，形成自增强循环。

这对“自演化代码 Agent”非常重要：

自演化不一定首先发生在模型权重里，也可能先发生在 Agent 框架、Skills、Memory、环境和评估系统里。

也就是说，未来自学习系统可能是“权重学习 + 框架学习 + 技能学习 + 环境学习”的复合体。

#1.4 Code 为什么是最具泛化力的 Agent 训练场？

访谈中关于 Code 泛化性的判断非常重要。她给出几个原因：

Code 天然长上下文：真实项目跨文件、跨模块、跨历史修改，远比普通聊天更接近 128K 到 1M 上下文。
Code 依赖密集：书籍也很长，但信号发散；代码文件之间结构关联强，适合训练长程依赖建模。
Code 有环境和 verifier：编译、测试、运行、benchmark、静态分析都能提供反馈。
Code 是长程任务：真实软件开发涉及理解需求、读代码、设计方案、修改、测试、debug、回滚。
Code 的训练闭环更完整：模型可以生成代码，环境验证结果，再反过来修正策略。

这和我之前对“数学/代码数据互相迁移”的判断一致：Code 是形式化、可执行、可验证、长上下文、强结构的任务环境，因此在不同范式中都戳中关键点：

Pre-train 阶段：Code 提供长上下文和结构化 token 分布；
Reasoning 阶段：Code/Math 提供可验证 reward；
Agent 阶段：Code 提供真实环境、长程交互和任务闭环；
Self-evolution 阶段：Code Agent 可以修改自己的工具链和框架。

她提到 R1 让她意识到 Code/Math reasoning 可以泛化，而 Agent 时代又进一步证明 Code 是更优雅的路径。这对代码智能研究是强信号：代码不是垂直应用，而是训练通用 Agent 能力的核心环境。

#1.5 长上下文不是为了“塞满 1M token”，而是为了激活长程行动能力

MiMo-V2 系列的一个核心技术方向是 Long Context efficiency。访谈中提到：Agent 时代 Long Context 很关键，因为任务本身变长，Context 越长越可能产生更高层次的智能。

但她也指出一个现实问题：真正 1M 上下文的训练数据很难构造，完整 rollout 一个 1M trajectory 成本极高，即使 80-100 TPS，也可能要一两个小时。

这带来一个重要判断：

训练阶段未必真的要大量完整 1M trajectory；如果预训练已经具备 1M context 能力，后训练只需要用相关任务“激活”它，就能在长上下文中表现出能力。

这对 long-horizon agent RL 很关键。直接在超长轨迹上做端到端 RL 成本极高，可能并不是短期可扩展路径。更现实的 recipe 是：

预训练阶段用长上下文数据建立长程依赖能力；
后训练阶段用较短但结构相似的任务激活能力；
Agent 框架用 memory、compression、plan、checkpoint 降低实际上下文压力；
只在关键场景上做超长 trajectory 评估或少量训练。

这与我对“超长 agent 轨迹直接 RL 的可持续性”的怀疑一致：长程能力需要训练，但不一定靠完整长程 rollout 直接堆出来。

#1.6 Agent RL Infra：从推理引擎中心转向 Agent 中心

这是整篇访谈里最值得研究的一段。

在 Code/Math reasoning 阶段，RL Infra 的核心是 rollout 推理引擎：模型长链思考、生成答案、verifier 打分，然后优化。

但 Agent 阶段完全不同。系统从：

以 Rollout 推理引擎为核心

变成：

以 Agent 为核心的复杂系统

这个系统需要处理：

Agent 框架本身可能是黑盒或白盒；
工具调用可能失败；
长任务中途可能超时或中断；
任务 reward 可能延迟、稀疏、模糊；
训练和推理可能在异构集群上；
不只是 GPU，还要管理 CPU、存储、浏览器、沙箱、文件系统；
环境状态会变化，复现困难；
失败原因可能无法精确归因。

因此 Agent RL Infra 必须容忍模糊性。Pre-train infra 追求确定性、稳定性、loss spike 可解释；Agent RL infra 则要能在大量不确定、失败、异构资源、非稳定环境中仍然推进训练。

这对 model-based RL / Dreamer for LLM Agent 有直接启发：

如果真实环境 rollout 太贵、太慢、太不稳定，就需要学一个环境模型或任务模型；
需要把 Agent trajectory 抽象为状态、动作、观察、工具反馈、记忆更新；
需要将失败原因从“环境噪声”中分离出来；
需要在 latent space 中做规划、压缩和回放，而不是每次都完整跑真实环境。

换句话说，Agent RL Infra 的复杂性本身就是 model-based RL 介入的理由。

#1.7 Skills 是人类经验进入模型系统的新数据形态

访谈中对 Skills 的判断也很关键：Skills 定义了一套执行规范，而这些规范很难出现在预训练数据里，因为它们往往来自企业内部、真实业务、组织流程和个人经验。

这意味着 Skills 不是简单 prompt，而是一种新的数据形态：

它来自真实任务；
它沉淀专家经验；
它指导模型行动；
它可被复用、修改、版本化；
它可以成为后训练数据来源；
它让人主动贡献“让模型成功完成任务的方式”。

从训练角度看，Skills 可能是连接人类知识与 Agent 行动的中间层：

Pre-train 学公开互联网知识；Skills 学组织和个体的私有操作智能。

这和我现在搭建的中心化 AI 共享记忆 hub、stable memory、remember 命令、Skills 管理非常相关。长期看，用户和 Agent 的交互不只是产生聊天记录，而是在共同沉淀可迁移的操作程序。

#1.8 多模型编排：效果、成本、效率的乘积

MiMo-V2 Pro / Omni / TTS 的讨论给出一个清晰观点：未来不一定是一个模型统一吃掉所有模态，而是多个模型在 Agent 框架中被有效编排。

她提到：

Pro 做理解和认知；
Omni 做感知；
TTS 做表达；
不同模型用于不同环节，主要出于成本、速度、价格考虑；
Agent 革命本质是生产力革命，必须看端到端完成率与成本效率。

这对多模态 Agent 的判断很实际：多模态是否“促进智能”不是唯一问题，更关键的是它是否让 Agent 能行动。Agent 需要感知世界、理解视频/声音/图像、产生表达，但这些能力可以通过框架编排多个模型实现。

这也说明未来的模型训练和 Agent 框架会深度耦合：模型不是孤立部署，而是在生态中承担不同角色。

#1.9 组织结构也是技术系统的一部分

访谈后半部分谈组织，但其实仍然是技术观点：在范式快速变化时，组织结构决定技术探索速度。

几个关键判断：

平权有利于创新；
没有固定小组，避免把人的创造力锁死在场景里；
预训练的人做后训练有优势，因为他们更懂数据多样性；
后训练需要 diversity，而不是只盯单一 benchmark；
好奇心、热爱、频繁使用模型，比已有经验更重要；
环境比经验重要，人在高标准环境中可以快速习得能力；
群体智能可以让框架几小时迭代一轮。

这对科研方法也有启发：Agent 时代的研究组织可能会越来越像一个多 Agent 系统：每个人、每个 Agent、每个 skill、每个实验都在共享上下文、互相蒸馏、快速迭代。

#2. 对我目前研究方向的帮助

#2.1 对 LLM Agent / Agentic RL 的启发

访谈最直接支持的方向是：Agent 的核心训练问题已经从“让模型会用工具”升级为“让模型适应复杂 Agent 框架并在其中自我改进”。

可研究问题包括：

Agent 框架理解能力如何训练？

- 模型如何理解 memory、skills、tools、subagents、cron、message channels？

- 如何构造多框架、多工具、多环境的数据？

Agent RL 的 state/action/reward 如何定义？

- action 不只是 token，也包括工具调用、文件修改、任务分解、记忆写入；

- reward 不只是最终答案，也包括任务推进度、环境状态、用户满意度、成本和安全。

如何做 Agent trajectory compression？

- 超长任务不能把所有信息塞进上下文；

- 需要把 trajectory 压缩成可训练、可回放、可规划的状态表示。

如何处理失败归因？

- 工具错误、模型错误、环境错误、上下文缺失、框架 bug 混杂在一起；

- 需要自动 diagnose 和 credit assignment。

这些问题和 long-horizon credit assignment 高度相关。

#2.2 对 model-based RL / Dreamer for LLM Agent 的启发

访谈中反复出现两个矛盾：

长程真实 Agent rollout 很贵、很慢、容易中断；
但 Agent 后训练又必须在真实或近真实环境中进行。

这正是 model-based RL 的切入点。

一个可能的研究框架：

收集真实 Agent trajectories；
把工具调用、文件状态、测试结果、用户反馈转成结构化 transition；
学一个 world model / task model，预测下一步观察、任务进展、失败概率、成本；
在 latent space 中做 planning 或 imagination rollout；
只把高价值策略放回真实环境验证；
将真实反馈继续更新 world model。

这对应 Dreamer 的思想，但状态空间不是图像，而是：

repo state；
task spec；
memory state；
tool observations；
plan state；
user constraints；
verifier result。

访谈中“Agent 框架自迭代”和“模型改框架，框架再提升模型”也可以放入 model-based self-improvement 框架中理解。

#2.3 对潜空间推理的启发

访谈没有直接谈 latent reasoning，但有很多隐含连接。

Agent 任务太长，如果每一步都外化为自然语言，成本会非常高。未来可能需要：

latent plan；
latent task state；
latent memory retrieval；
latent verifier signal；
latent program representation；
latent multi-agent communication。

OpenClaw 这类框架目前更多依赖显式文本、Skills、Memory、工具调用。但随着任务变长，显式上下文会成为瓶颈。一个自然方向是：

把 Agent 轨迹中的高频结构压缩到 latent space，只在必要时外化为文本、代码或工具调用。

这可以连接到潜空间推理和通用上下文压缩器。

#2.4 对代码智能 / Self-evolving Code Agent 的启发

Code 被访谈明确视为最具泛化力的训练场。对代码 Agent 来说，下一步不应只做 HumanEval、SWE-bench，而要做更真实的长程软件开发：

改框架；
写测试；
跑实验；
debug training infra；
优化算子；
重构 RL infra；
多 Agent 并行验证 idea；
从失败中沉淀 skill。

更进一步，Self-evolving Code Agent 的关键闭环可能是：

Agent 使用当前框架完成任务；
失败被记录为 trace；
Agent 总结失败原因，写入 skill / memory / test；
Agent 修改自己的工具链或 workflow；
新框架提升后续任务成功率；
高质量轨迹反哺模型后训练。

这正是访谈中“模型与 Agent 框架同步往前走”的研究化表达。

#2.5 对个人工作流和研究方式的启发

访谈里最“可落地”的建议是：研究效率会被 Agent 极大加速，关键是 taste 和并行验证能力。

她提到过去一个 idea 从想到代码到评估可能要一两周，现在 Agent 帮助下一两小时就能做完，十个 idea 可以交给不同 subagent 并行做、交叉验证。

这对我目前的工作方式有直接启发：

把研究问题拆成可由 subagent 独立推进的小实验；
为每类任务沉淀 skills，而不是每次重新教；
把失败案例写成评估集和 regression tests；
建立个人 research memory hub，让不同设备、不同 Agent 共享稳定记忆；
对每个研究方向维护“高价值任务池”，持续让 Agent 挑战边界；
不只用 Agent 写代码，也用 Agent 设计评估、构造环境、复盘失败。

这与我的中心化 AI 共享记忆系统非常契合：记忆、Skills、任务轨迹、实验结果都可以成为个人级 Agent 自进化的数据资产。

#3. 我认为访谈中最值得警惕的地方

#3.1 “两年内 AGI”判断过于乐观，但方向值得重视

罗福莉认为两年内可能实现 AGI，这个判断我会保留。原因是 Agent 能力在生产力任务上会非常快地突破，但“AGI”定义太不稳定，而且真实世界行动、长期自主性、安全、价值对齐、机器人、科学发现等维度仍然很复杂。

更稳妥的说法是：

两年内很可能出现能替代大量白领工作流的 Agentic AI 系统；但是否称为 AGI，取决于定义。

这并不削弱访谈价值。真正重要的是：生产力范式变化可能已经足够大，不必等 AGI 定义达成共识。

#3.2 体感评估在范式转移早期有价值，但不能长期替代系统评估

她提到在路径刚转变时，可以短期忽略 benchmark，靠体感判断质变。这在早期探索时合理，因为 benchmark 往往滞后。

但长期看，Agent 领域必须建立更系统的评估：

长程任务完成率；
成本 / 时间 / token；
中断恢复能力；
memory 正确性；
skill 迁移能力；
多环境泛化；
用户干预次数；
安全与隐私；
自迭代是否真的提高后续成功率。

否则 Agent 研究容易陷入 demo-driven development。

#3.3 Multi-Agent 现在更多提升效率，未必提升上限

访谈中有一个很诚实的判断：当前市场上的 Multi-Agent 很多有点“伪”。它们能提升速度、节省成本，但还没有清楚看到能提升能力上限。

这对研究很重要。Multi-Agent 真正的问题不是“多个模型互相聊天”，而是：

如何分工；
如何共享状态；
如何避免错误扩散；
如何做 cross-check；
如何合并不同 agent 的局部发现；
如何形成群体智能而不是群体噪声。

这可以成为一个独立研究方向：Multi-Agent credit assignment and coordination for long-horizon tasks。

#4. 可以进一步展开的研究问题

结合访谈和我目前方向，后续最值得深入的题目有：

#4.1 Agent 框架作为可学习对象

过去我们训练模型适配固定环境；未来能否训练模型主动修改环境？

研究问题：

如何表示 Agent 框架的状态？
如何评价一次框架修改是否提升长期任务成功率？
如何避免自修改带来退化？
Skills / Memory / Tools / Subagents 哪些最值得自动优化？

#4.2 Agent RL 的 world model

真实 agent rollout 成本高、不可控，是否能学一个任务世界模型？

研究问题：

如何从 terminal/browser/file/tool traces 中学习 transition model？
如何预测任务成功率、失败类型、剩余步骤？
如何在 latent space 中模拟工具调用和 repo 修改？
如何把 imagined rollouts 和真实 rollouts 混合训练？

#4.3 Code 作为通用 Agent 训练环境

Code 不是垂类，而是通用智能训练环境。

研究问题：

什么类型的代码任务最能迁移到通用 Agent？
repo-level task 和 algorithmic task 的能力迁移差异是什么？
code RL 学到的是工具使用、规划、debug，还是 benchmark shortcut？
如何设计能训练“自我改进”的代码环境？

#4.4 Skills 作为人类智能数据接口

Skills 是人主动贡献执行知识的接口。

研究问题：

如何自动从成功/失败轨迹中抽取 skill？
如何评估 skill 的泛化性？
如何做 skill routing？
如何避免 skill stale / wrong / overfit？
如何把 skill 变成后训练数据？

#4.5 长上下文与压缩记忆

Agent 时代并不是无限扩上下文就行，关键是压缩与检索。

研究问题：

哪些信息应进入 context，哪些应进入 memory，哪些应进入 latent state？
如何训练模型判断上下文价值？
如何将超长 trajectory 压缩成可复用经验？
如何避免 memory contamination 和错误长期化？

#5. 对我当前工作流的具体建议

基于这篇访谈，我会把近期个人研究/工具系统的优先级调整为：

继续强化中心化记忆 hub：让稳定记忆、候选记忆、skills、研究笔记跨设备共享。
把高价值研究任务 Skill 化：文献调研、代码实验、benchmark 复现、失败复盘都应形成 skill。
建设 Agent 任务轨迹数据集：保留真实工具调用、文件修改、测试结果、人工反馈，用于后续分析和训练。
做 Code Agent 长程任务评估：不要只看小函数题，重点看 repo-level、debug、实验自动化、框架修改。
探索 Agent trajectory compression：把长任务压缩为 plan、state、decision points、failure modes。
尝试 subagent 并行研究流程：一个主 Agent 负责 taste 和裁决，多个 subagent 并行验证 idea。
把失败变资产：每次失败都沉淀为 regression test、skill patch 或 memory update。

这些都指向同一个目标：构造一个可以持续自我改进的个人研究 Agent 系统。

#6. 总结

这篇访谈的价值在于，它不是从外部观察 Agent 热潮，而是从一个正在训练 1T 级模型、正在搭 Agent 后训练系统、正在被 OpenClaw/Claude Code 改变研究工作流的人视角，描述范式迁移。

我认为最重要的五个结论是：

Agent 时代的主战场是 Post-train + Agent RL scaling。
Code 是最具泛化力的长程、可验证、强结构 Agent 训练环境。
Agent 框架不是壳，而是模型能力的外部认知结构。
自学习大概率发生在模型与框架共同演化中，而不是模型权重单独自举。
Skills / Memory / Workflow 是人类私有操作智能进入 AI 系统的新数据形态。

对我来说，最值得继续追的问题是：

如果未来 Agent 真能自我进化，那么它到底是在进化模型、进化框架、进化记忆、进化环境，还是进化这些东西之间的耦合关系？

我的判断是：真正的突破不会来自某一个孤立模块，而会来自“模型—框架—环境—人类反馈—训练系统”的闭环被打通。

这也是为什么 LLM Agent、model-based RL、潜空间推理、代码智能和共享记忆系统，其实并不是几个分散方向，而是同一个问题的不同切面：

如何让智能系统在长程环境中持续积累经验、压缩经验、复用经验，并最终改进自己。