#Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society
#0. 一句话核心结论
Multi-agent 这条线真正追求的不是“让多个模型一起聊天”,而是:当单个智能体无法完整感知、完整规划、完整执行、完整自我验证时,如何通过“分工、通信、博弈、协作、竞争、记忆与环境反馈”构造一个更可靠、更可扩展、更能长期自治的智能系统。
从早期 Distributed AI / MAS 到今天的 LLM-based multi-agent systems,核心问题一直没变:如何把分布式智能从“看起来像协作”推进到“真的能在开放环境中稳定地产生能力增长”。
变化的是载体:早期是符号 agent、协议和组织;中期是博弈论、机制设计、群体智能和 MARL;今天是 LLM/VLM + tools + memory + code execution + browser/OS environments + RL/post-training。
#0.5 先把容易被一句话带过的代表工作拆开讲
这一节是给“第一次系统读 multi-agent 方向”的读者准备的。前面的长文按历史脉络写,很多论文/系统只能一句话点到;但如果不知道它们到底在干什么,就很容易只记住一堆名词。下面我把最容易造成理解断层的工作拆开讲:每个都尽量回答四个问题:它想解决什么问题?它怎么做?为什么重要?它留下了什么问题?
#0.5.1 HEARSAY-II / Blackboard Architecture:多个专家往同一块黑板上写中间结果
先用人话讲:
你可以把 HEARSAY-II 想象成一个会议室,中间有一块大白板。语音识别任务很复杂:有的人擅长识别音素,有的人擅长识别单词,有的人擅长语法,有的人擅长语义。每个“专家模块”看到白板上已有的信息后,就补充自己能判断的东西。最后系统通过不断读写这块白板,把低层声音信号逐渐拼成高层语言理解。
它想解决的问题:
早期 AI 常常像一个单体专家系统:所有知识和规则都塞进一个大系统里。但真实任务往往需要多种知识共同工作。语音理解就不是单靠声学、词典或语法任何一个模块能解决的。
它的核心方法:
Blackboard architecture 把问题拆成三个部分:
- 一块共享工作区,也就是 blackboard;
- 多个知识源,也就是不同专家模块;
- 一个控制机制,决定哪个模块什么时候出手。
专家模块不一定直接互相通信,而是通过共享黑板间接协作。
为什么它重要:
它给 multi-agent 留下了一个非常核心的思想:协作不一定是 agent 之间互相聊天,也可以是围绕一个共享状态不断补全、修正和提升。 今天很多 agent 系统里的 shared memory、workspace、scratchpad、任务状态表,本质上都能看到 blackboard 的影子。
留下的问题:
黑板架构很依赖人工设计:谁能写什么、什么时候写、冲突如何解决,都要提前规定。它解决了“多个专家如何共享中间状态”,但没解决“多个自治智能体如何自己决定协作策略”。这就引向后来的 Contract Net、BDI、agent communication language。
#0.5.2 Contract Net Protocol:把任务分配变成“招标—投标”
先用人话讲:
如果一个 manager agent 有任务要做,它不直接指定谁做,而是像发招标一样广播:“我这里有个任务,谁能做?报价多少?多久完成?”其他 agent 根据自己的能力和成本投标。manager 比较投标后,把任务分给最合适的 agent。
它想解决的问题:
在多智能体系统里,任务不是只属于一个中心控制器。每个 agent 有自己的能力、资源和局部信息。问题变成:任务来了以后,怎么动态分配给合适的 agent?
它的核心方法:
Contract Net Protocol 通常包括:
- task announcement:发布任务;
- bid:候选 agent 报价/承诺;
- award:manager 选择一个或多个 agent;
- execution and report:执行并反馈结果。
这不是深度学习算法,而是一种协作协议。
为什么它重要:
今天的 LLM multi-agent 里,planner 把任务拆成子任务,然后分给 coder、tester、researcher、browser agent,本质上经常在做一种“隐式 Contract Net”。区别是现在分配过程常常写在 prompt 或 workflow 里,而不是严格协议。
留下的问题:
它假设 agent 能清楚描述自己的能力和成本。但 LLM agent 很多时候并不知道自己会不会做,甚至会自信地误报能力。所以今天的任务分配不能只靠“谁说自己能做”,还需要执行反馈、验证器和历史表现统计。
#0.5.3 BDI Agents:把 agent 拆成“我相信什么、我想要什么、我打算怎么做”
先用人话讲:
BDI 是 belief、desire、intention 的缩写:
- belief:我认为世界现在是什么样;
- desire:我想达成什么目标;
- intention:我已经承诺要执行的计划。
它试图让 agent 不只是一个函数,而像一个有内部心理状态的理性行动者。
它想解决的问题:
早期 agent 系统需要解释:为什么 agent 做出这个动作?它依据什么信息?它当前目标是什么?它为什么坚持某个计划而不是随便跳?
它的核心方法:
BDI 用显式状态表示 agent 的认知结构:
- belief 存世界模型和已知事实;
- desire 存候选目标;
- intention 存已经选择并要执行的计划。
当环境变化时,agent 更新 belief,再决定是否改变 intention。
为什么它重要:
今天 LLM agent 的 memory、goal stack、plan、reflection,其实都在重新发明 BDI 的一部分。区别是 BDI 更强调结构化状态,而 LLM agent 往往把 belief/desire/intention 混在自然语言上下文里。
留下的问题:
BDI 的状态很清晰,但它依赖人工定义符号和规则。LLM agent 的状态更灵活,却更混乱、更不可控。一个值得研究的问题是:能不能把 BDI 的结构化优点和 LLM 的开放语义能力结合起来?
#0.5.4 KQML / FIPA ACL:早期的人们想给 agent 规定“说话语法”
先用人话讲:
如果多个 agent 要协作,它们不能只发一串文本,还要知道这句话的意图是什么。比如同样一句“文件在哪里”,可能是询问,也可能是请求搜索,也可能是命令。KQML 和 FIPA ACL 就像早期 agent 世界里的“外交语言”:规定消息类型,比如 ask、tell、request、propose、accept、reject。
它想解决的问题:
多 agent 通信不能只有内容,还要有 speech act,也就是“这句话在做什么动作”。否则 agent 很难判断对方是在提供事实、请求帮助、提出报价,还是做承诺。
它的核心方法:
通信消息通常包含:
- performative:这句话的动作类型,如 ask/tell/request;
- content:具体内容;
- sender/receiver:谁发给谁;
- ontology/language:内容所用的概念体系和语言。
为什么它重要:
今天 LLM agent 用自然语言聊天很方便,但也带来一个问题:消息语义太松。一个 agent 写了一段长解释,另一个 agent 不一定知道其中哪些是事实、哪些是建议、哪些是待验证假设。KQML/FIPA ACL 提醒我们:agent 通信不只是 token 传输,更是行动意图的传输。
留下的问题:
固定通信语法太硬,难覆盖开放任务;纯自然语言又太松,容易误解和污染上下文。今天更有前途的方向可能是二者结合:自然语言解释 + 结构化字段 + 可验证证据。
#0.5.5 Ant Colony / Particle Swarm:没有中心控制,也能靠局部规则形成群体智能
先用人话讲:
蚂蚁找路不是因为有一个总指挥,而是每只蚂蚁根据局部信息行动,并在环境里留下信息素。走得好的路径信息素更强,后来者更容易走这条路,于是群体逐渐找到好路径。粒子群也是类似:每个粒子记住自己见过的好位置,也参考群体见过的好位置,在搜索空间里移动。
它想解决的问题:
复杂系统能不能不靠中心规划,而靠很多简单个体的局部互动,涌现出全局解决方案?
它的核心方法:
这类方法强调:
- 局部规则;
- 间接通信,例如信息素或共享环境;
- 群体搜索;
- 正反馈与探索之间的平衡。
为什么它重要:
它说明 multi-agent 不一定是“多个聪明个体开会”。有时恰恰相反:每个个体很简单,但群体通过环境反馈形成智能。这对今天的 agent system 有启发:与其让多个 LLM 长篇讨论,不如让它们并行探索不同方案,然后通过测试、评分、环境反馈筛选。
留下的问题:
群体智能擅长搜索和优化,但不擅长复杂语义推理。LLM agent 则擅长语义推理但容易幻觉。一个自然结合点是:用 LLM 产生候选策略,用群体搜索/环境反馈筛选策略。
#0.5.6 MADDPG:多智能体强化学习为什么需要“训练时看全局,执行时看局部”
先用人话讲:
假设几个 agent 在同一个环境里学习。对其中一个 agent 来说,环境并不是稳定的,因为其他 agent 也在不断学习、不断改变策略。今天你学到“这样做能赢”,明天队友和对手都变了,这条经验可能就失效。这叫 multi-agent non-stationarity。
它想解决的问题:
单智能体 RL 通常假设环境动态相对稳定。但多智能体里,其他 agent 的策略也在变化,所以每个 agent 看到的是一个会变的环境。学习会变得很不稳定。
它的核心方法:
MADDPG 使用 centralized training, decentralized execution:
- 训练时 critic 可以看到更多全局信息,比如其他 agent 的观测和动作;
- 执行时每个 agent 仍然只根据自己的局部观测行动。
这样训练时更容易估计“这个动作好不好”,部署时又不要求所有信息都集中。
为什么它重要:
CTDE 后来成为 MARL 里非常核心的范式。对 LLM agent 也有启发:训练/分析阶段可以用完整轨迹、工具日志、其他 agent 消息做全局诊断;但实际运行时,每个 agent 未必都能看到所有信息。
留下的问题:
MADDPG 主要面向连续控制和相对封闭的环境。LLM agent 的动作是语言、代码、工具调用,状态巨大且语义复杂,不能直接套用。
#0.5.7 VDN / QMIX / COMA:团队成功后,怎么知道是谁贡献的?
先用人话讲:
足球队赢球了,奖励给全队。但训练时你想知道:是前锋射门重要,还是中场传球重要,还是后卫防守重要?如果所有人只拿同一个团队奖励,就很难知道每个人应该如何改进。这就是 multi-agent credit assignment。
#VDN:把团队价值拆成每个 agent 的价值
VDN 的想法很直观:团队总价值约等于每个 agent 价值的加和。这样团队奖励可以分解回个体。但这个假设太简单,因为很多协作不是线性相加的。
#QMIX:允许更复杂的团队价值组合,但要求单调性
QMIX 比 VDN 更灵活。它用一个 mixing network 把各 agent 的价值合成团队价值,同时保持一种单调约束:如果某个 agent 的局部价值提高,团队价值不应该下降。这样既能表达非线性协作,又方便每个 agent 独立选动作。
#COMA:用反事实问“如果你不这么做,团队会怎样?”
COMA 更接近直觉里的贡献分析:某个 agent 做了动作 A 后团队得到奖励,那如果它当时做另一个动作,团队会不会更好?这种 counterfactual baseline 试图估计单个 agent 动作的边际贡献。
为什么它们重要:
它们都在解决同一个核心问题:团队结果如何分摊到个体决策。 今天 LLM multi-agent 里这个问题仍然很严重。一个 planner、一个 coder、一个 tester 合作修 bug,最后测试通过了,贡献到底来自谁?如果失败了,错在计划、实现、测试,还是上下文传递?
对 LLM Agent 的启发:
未来的 multi-agent code system 不能只记录“最后成功/失败”,还应该做:
- message ablation:删掉某条消息看结果是否变差;
- agent dropout:去掉某个 agent 看系统是否还能成功;
- counterfactual replay:让某个 agent 换一种回复重放轨迹;
- contribution scoring:给每个 agent/message 估计边际贡献。
这就是为什么 credit assignment 会成为长轨迹 multi-agent RL 的关键。
#0.5.8 MAPPO:为什么一个“看起来普通”的 PPO 能在多智能体里很强?
先用人话讲:
MAPPO 的重要性不在于它听起来多花哨,而在于它说明:在合作多智能体任务里,经过仔细调参和合适输入设计,PPO 这种相对稳定的 on-policy 方法也可以打得很好。
它想解决的问题:
MARL 里曾经有很多复杂算法,但很多结果难复现、对超参数敏感。研究者需要一个更稳、更简单、更强的 baseline。
它的核心方法:
MAPPO 仍然基于 PPO,但在多智能体场景中使用 centralized value function,并配合一些训练细节,比如 advantage normalization、value clipping、合理 batch 设置等。
为什么它重要:
它提醒我们:有时方向进展不来自“更复杂算法”,而来自把一个稳定基线在目标场景里认真调好。今天 LLM Agent RL 也类似:很多所谓新框架未必比一个扎实的 single-agent + verifier + retry baseline 更强。
留下的问题:
MAPPO 仍主要服务封闭环境下的 MARL;LLM agent 的轨迹更长、动作更稀疏、奖励更难定义,不能简单照搬。
#0.5.9 AlphaStar / OpenAI Five / Hide-and-Seek:self-play 为什么重要?
先用人话讲:
如果没有足够难的老师,可以让 agent 互相当老师。今天的自己打昨天的自己,赢了以后又产生更强版本,对手也随之变强。这样任务难度会随着能力提升自动增长,这叫 self-play 或 autocurriculum。
它想解决的问题:
复杂策略不可能靠人工标注一步步教出来。StarCraft、Dota、hide-and-seek 这种环境的策略空间巨大,需要系统自己产生越来越难的训练分布。
它的核心方法:
这些系统通常包括:
- 大规模并行环境;
- self-play 或 population-based training;
- 对手/队友池;
- 从胜负或任务结果中学习;
- 有时会出现人类没直接设计的 emergent behavior。
Hide-and-Seek 里比较有名的现象是 agent 学会利用工具、卡漏洞、形成越来越复杂的追逐和躲藏策略。
为什么它重要:
它让人看到一种路径:智能不是只靠静态数据集训练出来,也可以靠持续交互和对抗产生。对 wenjun 关心的 agent 自演化,这非常关键:如果我们能设计一个环境,让 agent 的失败自动变成下一轮训练任务,系统就可能持续进化。
留下的问题:
游戏环境有清晰规则和奖励,而真实代码/科研/网页任务没有这么干净。如何把 self-play/autocurriculum 迁移到真实 LLM agent,是未解决问题。
#0.5.10 Generative Agents:LLM + 记忆 + 反思,为什么会像“社会模拟”?
先用人话讲:
Generative Agents 做了一个类似小镇的虚拟环境。每个角色都有日常活动、记忆和反思机制。比如一个 agent 记得自己昨天和谁聊天,反思后形成“某某对我很重要”的高层印象,之后再决定今天做什么。
它想解决的问题:
LLM 单次对话可以像人,但要模拟持续生活的个体,需要记住过去、总结经验、根据日程和关系行动。
它的核心方法:
系统通常包括:
- memory stream:记录 agent 经历;
- retrieval:根据当前情境取回相关记忆;
- reflection:把低层事件总结成高层想法;
- planning:生成日程和行为;
- environment:多个 agent 在同一空间里互动。
为什么它重要:
它把 LLM 从“回答问题的模型”推向“有持续状态的社会角色”。今天很多 agent memory、reflection、persona、social simulation 都受它影响。
留下的问题:
它更像可信模拟,而不是强任务求解。也就是说,它能让 agent 行为看起来合理,但不保证在代码、网页、科研这种可验证任务上更强。
#0.5.11 CAMEL:角色扮演式 multi-agent 为什么流行,又为什么不够?
先用人话讲:
CAMEL 的核心是让两个或多个 LLM 扮演不同角色,例如“AI assistant”和“AI user”,通过角色设定让它们自动展开任务讨论。一个 agent 提需求,另一个执行或回答,形成多轮协作。
它想解决的问题:
如果只让一个 LLM 做任务,它可能缺少约束和互动。角色扮演可以把任务拆成多个视角,让对话自动推进。
它的核心方法:
给不同 agent 不同 system prompt / role prompt,让它们在特定任务框架下互相提问、回答、修正。
为什么它重要:
它让大家看到:LLM 自然语言能力很适合作为 agent 间通信界面。很多后来的 multi-agent demo 都沿用了 role-playing conversation。
留下的问题:
角色扮演很容易“看起来很热闹”,但不一定带来真实能力提升。两个同源 LLM 互相讨论,可能只是把同一个错误说得更自信。所以后来的研究开始强调 benchmark、工具反馈和 verifier。
#0.5.12 AutoGen:它不是一个神奇算法,而是一个多 agent 对话编排框架
先用人话讲:
AutoGen 更像一个搭建 agent workflow 的框架。你可以定义多个 agent:有的负责写代码,有的负责执行代码,有的负责人类确认,有的负责总结。它们通过消息互相调用,直到任务完成或达到终止条件。
它想解决的问题:
早期大家手写 agent loop 很乱:谁调用谁?什么时候停?工具执行结果怎么回传?人类怎么插入?AutoGen 把这些对话式协作抽象成框架。
它的核心方法:
AutoGen 提供 conversable agents:
- agent 可以接收和发送消息;
- agent 可以接工具或代码执行;
- 可以设定自动回复逻辑;
- 可以组织 group chat 或 manager;
- 可以加 human-in-the-loop。
为什么它重要:
它推动 multi-agent 从论文 demo 走向工程实践。很多人第一次真正搭 multi-agent system,接触的就是类似 AutoGen 的框架。
留下的问题:
框架本身不等于能力。一个系统用了 AutoGen,不代表 multi-agent 结构真的优于 single-agent。真正要证明的是:在固定 token、工具调用、时间预算下,它是否更可靠。
#0.5.13 MetaGPT / ChatDev:把软件公司流程搬进 agent 系统
先用人话讲:
MetaGPT 和 ChatDev 都像是在模拟一家小软件公司。有人当产品经理,有人当架构师,有人当程序员,有人当测试。需求进来后,agent 按软件工程流程产出需求文档、设计文档、代码和测试。
它们想解决的问题:
写软件不是只“生成一段代码”,还包括需求理解、设计、实现、测试、修改。单个 LLM 往往会跳步骤,导致代码和需求不一致。
核心方法:
这类系统把人类软件工程流程写进 agent 协作:
- 需求分析;
- 架构设计;
- 任务拆分;
- 编码;
- 测试;
- 文档生成;
- 迭代修复。
MetaGPT 更强调 SOP,即 standard operating procedure;ChatDev 更强调角色化聊天模拟公司。
为什么重要:
它们证明了一个重要工程直觉:LLM agent 的能力不仅来自模型本身,也来自 workflow。 同一个模型,如果放进更合理的软件工程流程,输出会更稳定。
留下的问题:
问题也正出在这里:提升到底来自 multi-agent,还是来自更好的流程模板?如果把这些步骤交给一个 single-agent 顺序执行,是否也能接近?这就是 fixed-budget evaluation 要回答的问题。
#0.5.14 AgentVerse:动态组队的想法是什么?
先用人话讲:
AgentVerse 想表达的是:多 agent 不一定是固定几个人从头聊到尾,而可以根据任务动态选择参与者、组织协作,并观察是否出现 emergent behavior。
它想解决的问题:
固定角色系统太死。真实任务里,不同阶段需要不同专家:查资料时需要 researcher,写代码时需要 programmer,调 bug 时需要 debugger,评审时需要 critic。
核心方法:
AgentVerse 关注 agent group 的构建、协作、反馈和调整。它让 multi-agent system 更像一个可变组织,而不是固定 prompt 列表。
为什么重要:
它把问题从“设计几个角色”推进到“如何组织一个 agent society”。这对未来 agent marketplace、specialist routing、动态专家选择都很重要。
留下的问题:
动态组队需要知道谁真的擅长什么,但 LLM agent 的能力评估很难。没有可靠 profiling 和 verifier,动态组队可能只是更复杂的 prompt routing。
#0.5.15 Voyager:为什么它不像普通 Minecraft agent?
先用人话讲:
Voyager 在 Minecraft 里不是只完成一个任务,而是持续探索、写代码控制自己、把成功技能存进技能库,再在以后复用。比如它学会“挖木头”“做工具”“探索洞穴”,这些技能会变成可调用代码。
它想解决的问题:
很多 agent 每次任务都从零开始,无法积累长期经验。Voyager 想做 lifelong learning:越玩越会玩。
核心方法:
Voyager 包括几个关键部件:
- automatic curriculum:自动提出下一步探索目标;
- skill library:把成功代码保存成可复用技能;
- iterative prompting:失败后根据环境反馈修改代码;
- embodied environment:Minecraft 提供可交互世界和反馈。
为什么重要:
它非常接近“self-evolving agent”的原型:agent 不只是执行任务,还会沉淀技能。对 code agent 来说,类似思想就是把成功 debug 策略、repo 搜索策略、测试选择策略沉淀成可复用经验。
留下的问题:
Voyager 主要依赖 GPT-4 生成代码和环境反馈,技能库也未必等价于模型参数里的能力增长。如何从外部技能库走向模型内化,是下一步关键。
#0.5.16 Reflexion / self-refine / critic loop:为什么“反思”有用但也危险?
先用人话讲:
反思类方法让 agent 做完后先别急着交卷,而是回看自己的答案或轨迹,找错误,写下经验,然后重试。就像做题后订正错题。
它想解决的问题:
LLM 第一遍生成经常有错。如果能根据失败反馈自我修正,就能提升长任务成功率。
核心方法:
典型循环是:
- 生成答案/动作;
- 执行或评估;
- 得到错误反馈;
- 生成 reflection;
- 把 reflection 加进下一轮上下文;
- 重试。
为什么重要:
它是很多 agent loop 的基础:planner-executor-critic、tester-fixer、reviewer-coder 都是反思思想的变体。
危险在哪里:
如果没有真实反馈,反思可能只是“自我安慰式幻觉”。模型会编一个看似合理的错误原因,然后带着错误继续走。所以反思最好绑定可验证信号:测试、编译、网页状态、数据库状态、环境 reward。
#0.5.17 SWE-agent / SWE-bench:为什么真实 GitHub issue 成为关键 benchmark?
先用人话讲:
HumanEval 这类代码题像考试小题;SWE-bench 更像真实工作:给你一个开源仓库和一个 GitHub issue,你要理解项目、定位 bug、改代码、跑测试,最后提交 patch。
SWE-bench 想解决的问题:
传统代码 benchmark 太短、太干净、太容易被污染,无法代表真实软件工程。真实 bug 修复需要跨文件理解、环境配置、测试选择和长期调试。
SWE-agent 的意义:
SWE-agent 不只是模型,而是一个 agent-computer interface:它让 LLM 能在 repo 里搜索、打开文件、编辑、运行测试、观察错误,再继续修改。
为什么重要:
这条线把 agent 研究从“会不会写函数”推向“能不能在真实工程环境里闭环完成任务”。它也让 multi-agent code system 有了更真实的试验场。
留下的问题:
SWE-bench 成功率容易受到污染、测试覆盖、repo 选择、prompt 工程、工具接口影响。并且很多 multi-agent coding 系统的提升,可能只是用了更多搜索、更多 retry、更多 token,而不一定是协作机制更好。
#0.5.18 AgentBench / WebArena / OSWorld / GAIA:这些 benchmark 分别在测什么?
这些名字经常被放在一起,但测的不是同一种能力。
| Benchmark | 用人话解释 | 主要测什么 | 为什么对 multi-agent 重要 |
|---|---|---|---|
| AgentBench | 给 LLM agent 放到多个环境里做任务 | 通用 agent 能力 | 看模型是否能跨环境行动 |
| WebArena | 模拟/真实网站里的网页任务 | 网页导航、表单、状态追踪 | 适合 planner/browser/verifier 分工 |
| OSWorld | 真实电脑操作环境 | 多模态 computer-use、GUI 操作 | 状态复杂,适合长期任务分解 |
| GAIA | 通用助手任务 | 搜索、推理、工具使用综合能力 | 看 agent 是否能像研究助理一样完成开放任务 |
| MLE-bench | 机器学习工程竞赛任务 | 实验、建模、调参、提交 | 适合研究 scientist/coder/evaluator 协作 |
关键理解:
这些 benchmark 的共同点是:它们把 LLM 从“回答文本”逼到“操作环境”。一旦有环境,就会出现计划、工具、反馈、记忆、错误恢复,也就自然出现 multi-agent 可能有用的空间。
但要小心:
benchmark 越复杂,越难判断提升来自哪里。是模型强?工具接口好?上下文长?多 agent 协作好?还是 retry 次数多?所以必须做固定预算比较。
#0.5.19 MultiAgentBench:专门问“多 agent 协作/竞争到底好不好”
先用人话讲:
很多 benchmark 只是让一个 agent 做任务;MultiAgentBench 更直接地问:多个 LLM agent 在协作或竞争环境里表现如何?不同通信拓扑,比如 star、chain、tree、graph,会不会影响结果?
它想解决的问题:
过去 multi-agent 论文常常展示很漂亮的协作对话,但缺少系统评测。MultiAgentBench 想把“协作质量”和“竞争表现”变成可测对象。
核心方法:
它通常会设计多种场景和指标,例如:
- task completion:任务是否完成;
- milestone achievement:关键中间里程碑是否达成;
- collaboration / competition quality:协作或竞争过程质量;
- topology comparison:比较 star、chain、tree、graph 等结构;
- strategy comparison:比较 group discussion、planning 等协作方式。
为什么重要:
它开始把问题从“agent 能不能做任务”转向“agent 之间如何组织更有效”。这正是 multi-agent 作为研究方向必须面对的问题。
留下的问题:
即使有 MultiAgentBench,也还不够。因为真实代码、网页、科研任务里的协作很长、很脏、很依赖工具反馈。下一步 benchmark 需要更重视固定预算、因果归因和可复现轨迹。
#0.5.20 AgentGym / AgentGym-RL:从评测走向训练环境
先用人话讲:
如果 AgentBench、WebArena、SWE-bench 更像考试,那么 AgentGym 想更像训练馆。它不只是问 agent 能不能做任务,还希望提供一组环境,让 agent 可以在里面收集经验、训练、改进。
它想解决的问题:
LLM agent 不能只靠 prompt engineering。要真正变强,需要可交互环境、轨迹数据、反馈信号和训练循环。
核心方法:
这类工作通常会整理多个 agent 环境,统一接口和反馈,让模型可以在不同任务中执行 action、观察 observation、拿到 reward 或评价。
为什么重要:
它把 agent research 从 evaluation-only 推向 training-oriented。对 wenjun 关心的长轨迹 RL,这类环境基础设施非常关键。
留下的问题:
环境质量、reward 设计、任务分布、多轮 credit assignment 仍然很难。训练环境如果太玩具,学到的策略未必能迁移到真实任务。
#0.5.21 AI Agents That Matter:为什么它提醒我们不要被 demo 骗?
先用人话讲:
这类工作/观点强调:agent 论文很容易被 demo、长 prompt、复杂框架包装得很好看,但真实评测可能不严谨。一个 agent 系统声称提升,可能只是因为用了更强模型、更多 token、更多工具调用、更多人工调参。
它想解决的问题:
Agent 研究缺少严格实验控制。不同论文的 agent scaffold、模型、工具、环境、预算都不同,很难公平比较。
关键提醒:
评测 agent 时至少要控制:
- base model;
- token budget;
- tool-call budget;
- wall-clock time;
- retry 次数;
- human intervention;
- benchmark contamination;
- 成本和延迟。
为什么重要:
这直接影响 multi-agent 研究是否成立。如果 multi-agent 只是因为调用了 5 个 agent、花了 5 倍 token 才赢 single-agent,那它未必是机制进步。真正有价值的是:在相同预算下,因为更好的分工、通信、验证和状态建模而更强。
#0.5.22 读完这些工作后,应形成的主线理解
如果把上面所有工作串起来,可以得到一条更容易理解的主线:
- Blackboard 解决“多个专家如何共享中间状态”;
- Contract Net 解决“任务如何分配给合适 agent”;
- BDI / ACL 解决“agent 内部状态和通信意图如何表达”;
- Swarm intelligence 说明“没有中心也能靠局部规则形成群体搜索”;
- MARL 解决“多个学习者如何在交互中学出协作策略”;
- VDN/QMIX/COMA 把问题推进到“团队奖励如何分给个体贡献”;
- Self-play systems 说明“环境和对手可以自动生成课程”;
- Generative Agents / CAMEL 把 LLM 带入多角色互动;
- AutoGen / MetaGPT / ChatDev 把 LLM multi-agent 工程化;
- Voyager / Reflexion / SWE-agent 把 agent 推向环境反馈、技能积累和真实任务;
- SWE-bench / WebArena / OSWorld / GAIA 让 agent 能力进入可验证环境;
- MultiAgentBench / AI Agents That Matter 开始追问“多 agent 的真实收益到底来自哪里”。
所以,multi-agent 不是一个单独技巧,而是一组长期问题的汇合:共享状态、任务分配、通信协议、组织结构、学习机制、环境反馈、credit assignment 和评测科学。
对后续研究最重要的不是记住每个名字,而是抓住这几个问题:
- 多个 agent 什么时候真的比一个 agent 好?
- 通信应该传自然语言、结构化状态,还是 latent representation?
- 团队成功或失败后,怎么知道每个 agent/message 的贡献?
- 多 agent 能否从环境反馈中持续学习,而不是只靠 prompt 编排?
- 如何在固定预算下证明 multi-agent 的机制收益?
#1. 本次调研流程与查漏记录
本报告按三轮以上调研组织,不把论文机械罗列,而是用“问题链”解释 multi-agent 为什么一阶段接一阶段演化。
#第一轮:经典 Multi-Agent Systems / Distributed AI 脉络
检索重点:
- classical multi-agent systems
- distributed artificial intelligence
- blackboard systems / HEARSAY-II
- contract net protocol
- BDI agents
- agent communication languages: KQML, FIPA ACL
- negotiation, auctions, coalition formation, mechanism design
代表节点:
- HEARSAY-II / blackboard architecture:早期用共享黑板协调多个知识源。
- Contract Net Protocol, Smith 1980:把任务分配看成招标-投标。
- Distributed Artificial Intelligence / Multi-Agent Systems:从单体专家系统转向多个自治实体。
- BDI agents, Rao & Georgeff 1995:用 belief-desire-intention 描述可解释的理性 agent。
- KQML / FIPA ACL:试图标准化 agent 之间的通信行为。
- Rosenschein & Zlotkin, Rules of Encounter:博弈论和机制设计进入 MAS。
- Wooldridge, Jennings 等 MAS 综述与教材:奠定智能体、组织、协议、协作等概念。
第一轮后发现的缺口:
- 经典 MAS 强调协议、理性、组织,但对真实开放环境中的学习和泛化处理不足。
- 早期系统常假设 agent 的目标、能力、通信语义比较清楚;而 LLM agent 的能力边界、错误模式、目标漂移并不清楚。
- 需要补充 swarm intelligence 和 MARL,因为它们分别代表“无中心组织”和“通过交互学习”的两条重要支线。
#第二轮:Swarm Intelligence / MARL / Game-Theoretic Learning
检索重点:
- swarm intelligence / ant colony / particle swarm / stigmergy
- game theory / mechanism design / auctions / negotiation / coalition formation
- independent learners
- CTDE: centralized training decentralized execution
- VDN, QMIX, MADDPG, COMA, MAPPO
- communication learning
- self-play, population-based training, open-endedness
代表节点:
- Ant Colony Optimization, Dorigo 1990s:蚂蚁通过信息素形成路径搜索。
- Particle Swarm Optimization, Kennedy & Eberhart 1995:群体粒子通过局部和全局经验搜索。
- MADDPG, 2017:multi-agent actor-critic,应对多智能体非平稳性。
- VDN, 2017:把团队价值分解成个体价值。
- QMIX, 2018:通过 monotonic value factorization 解决合作 MARL 的 credit assignment。
- COMA, 2017/2018:counterfactual baseline,尝试回答“某个 agent 对团队奖励贡献了什么”。
- MAPPO, 2021:证明 PPO 在合作多智能体游戏中意外有效。
- AlphaStar / OpenAI Five:self-play、population-based training 和大规模训练把 multi-agent 推向复杂游戏。
- OpenAI hide-and-seek, 2019:多智能体竞争产生 autocurriculum 和 emergent tool use。
第二轮后发现的缺口:
- MARL 解决了“通过交互学习协作策略”的问题,但大多依赖封闭环境、明确 reward、有限 action space。
- 它对真实软件工程、网页操作、科研任务等开放任务不够适配,因为这些任务 reward 稀疏、状态巨大、动作语义复杂。
- 需要补 LLM agent 最新系统,因为 LLM 把自然语言、代码、工具调用、计划分解统一成了新的 agent substrate。
#第三轮:LLM-based Agents / Multi-Agent Frameworks / Benchmarks
检索重点:
- AutoGen, CAMEL, MetaGPT, ChatDev, AgentVerse
- Generative Agents, Voyager
- Reflexion, CodeAct, SWE-agent / Devin-style agents
- AgentBench, WebArena, SWE-bench, GAIA, OSWorld, MLE-bench, AgentGym, AgentBoard
- 2024-2026 agent evaluation, safety, long-horizon RL, computer-use agents
- Agent benchmark rigor / AI Agents That Matter
- SWE-bench Live, SWE-bench variants, OSWorld-Human / OSWorld-MCP, AgentGym-RL
代表节点:
- Generative Agents, 2023:LLM + memory + reflection 产生可信社会行为模拟。
- CAMEL, 2023:role-playing multi-agent conversation。
- AutoGen, 2023:多 agent conversation framework。
- MetaGPT, 2023:把人类软件工程流程编码进 agent 协作。
- ChatDev, 2023:用角色化聊天模拟软件公司。
- AgentVerse, 2023:动态组队和 multi-agent collaboration。
- Voyager, 2023:Minecraft 中自动课程、技能库、代码执行,接近 lifelong agent。
- AgentBench, 2023:多环境评估 LLM-as-agent。
- WebArena, 2023:真实网站环境。
- SWE-bench, 2023:真实 GitHub issue 修复。
- GAIA, 2023:通用 AI assistant benchmark。
- AgentBoard, 2024:多轮 agent 分析评测面板。
- OSWorld, 2024:真实电脑环境中的 multimodal computer-use agent。
- AgentGym, 2024 / AgentGym-RL, 2025:多环境 self-evolving / RL agent training。
- MLE-bench, 2024:机器学习工程任务。
- SWE-bench Live, 2025:动态更新 issue,缓解 benchmark contamination。
- OSWorld-Human, 2025:关注 computer-use agents 的效率,而不只是成功率。
- MCP-AgentBench, 2025:围绕 Model Context Protocol 的工具调用能力评测。
- SWE-ABS, 2026:对 SWE-bench 类 benchmark 做 adversarial strengthening,暴露 inflated success rates。
第三轮后发现的缺口:
- LLM multi-agent 很多工作是 framework engineering,真实提升来自哪里并不总是清楚:是模型更强、prompt 更长、工具更好、还是 multi-agent 结构本身?
- Agent benchmark 正在从“能不能做”转向“是否可复现、是否被污染、成本如何、是否真的反映现实任务”。
- 2024-2026 的主线不只是 multi-agent conversation,而是 long-horizon tool-use agent 的训练、评测和自我改进。
#2. 这条线真正要解决的问题是什么?
Multi-agent 的根问题可以分成五层。
#2.1 单个智能体能力有限
一个 agent 即使很强,也会遇到:
- 感知不完整:partial observability。
- 知识不完整:不知道某个领域细节。
- 计算不够:无法穷举计划。
- 执行不稳定:长任务容易中途偏离。
- 自我验证弱:会相信自己的错误。
- 目标不清晰:真实任务常常需要解释、协商、修正。
Multi-agent 的第一动机是:把一个大问题拆成多个角色、多个视角、多个局部决策。
#2.2 多个智能体引入新问题
但多个 agent 不是免费午餐。它会带来:
- 通信开销。
- 协调失败。
- 目标冲突。
- 责任归因困难。
- 重复劳动。
- 群体幻觉。
- 错误级联。
- 更大的安全攻击面。
所以 multi-agent 的研究重点并不是“agent 越多越好”,而是:什么任务真的需要多个 agent?多个 agent 如何组织才不互相放大错误?
#2.3 真实世界任务具有长链条结构
软件工程、网页操作、科研实验、机器人任务都不是一步预测,而是:
- 理解目标;
- 搜索信息;
- 形成计划;
- 调用工具;
- 观察反馈;
- 修改计划;
- 执行子任务;
- 验证结果;
- 处理异常;
- 形成可复用经验。
这天然适合 multi-agent,但也要求 agent 具备:
- 长期记忆;
- 分层规划;
- 环境建模;
- 自我纠错;
- 工具使用;
- reward credit assignment;
- 对失败轨迹的学习能力。
这也是为什么 wenjun 关注的 长轨迹 agent RL、model-based RL、latent-space reasoning、self-evolving code agent、agent 数据分布塑造能力 会成为下一阶段核心。
#3. 发展阶段:从符号协议到 LLM agent society
#阶段一:Distributed AI / Blackboard Systems
#关键词:共享状态、专家模块、黑板架构
#前一阶段解决了什么?
早期 AI 多是单体专家系统:一个系统内嵌规则、知识库、推理机。问题是复杂任务往往不是一个专家能解决的,例如语音理解、诊断、规划。
#这个阶段引入了什么?
Blackboard systems 把多个知识源放在一个共享工作区上:
不同模块看到黑板上的中间结果后,选择是否贡献新信息。
代表工作:
- HEARSAY-II speech understanding system:经典 blackboard architecture。
- 后来的 distributed problem solving 系统继承了“多个专家贡献局部解”的思想。
#之前的问题
单体系统难以扩展,知识模块之间耦合严重。
#解决方法
用共享黑板作为协调介质,让多个模块异步读写中间状态。
#新问题
黑板系统依赖中心共享状态,模块何时行动、谁来仲裁、如何避免冲突仍然需要手工设计。
#如何推动下一阶段
它提出了 multi-agent 的第一个核心问题:
如果多个智能组件都能行动,系统如何分配任务和协调行为?
这直接引向 Contract Net、Distributed AI 和 MAS。
#阶段二:Contract Net / Distributed Artificial Intelligence
#关键词:任务分配、自治 agent、协议
代表工作:
- Reid G. Smith, “The Contract Net Protocol”, 1980
- Distributed Artificial Intelligence, 1980s-1990s
- Multi-Agent Systems 早期研究
#前一阶段解决了什么?
Blackboard 能让多个模块共享信息,但“谁做什么”仍然不清楚。
#这个阶段引入了什么?
Contract Net Protocol 把任务分配类比成市场:
- manager 发布任务;
- contractors 投标;
- manager 选择;
- contractor 执行并返回结果。
这很像今天 agent orchestration 中的 planner-worker 架构。
#之前的问题
多个模块之间缺少明确的任务分配机制。
#解决方法
用协议组织 agent 之间的任务发布、竞标和执行。
#新问题
Contract Net 假设任务可描述、agent 能力可评估、投标可信。真实环境中这些假设经常不成立。
#如何推动下一阶段
它把 multi-agent 从“共享状态”推进到“交互协议”,也暴露了新问题:
agent 不只是工具模块,它们可能有自己的信念、目标、偏好和策略。
这推动了 BDI、agent communication language 和博弈论机制设计。
#阶段三:BDI Agents / Agent Communication Languages
#关键词:belief, desire, intention;通信语义;理性 agent
代表工作:
- Rao & Georgeff, BDI Agents, 1995
- KQML
- FIPA ACL
- Wooldridge & Jennings, Intelligent Agents / MAS
#前一阶段解决了什么?
Contract Net 能分配任务,但没有很好解释 agent 的内部状态:
它为什么这样行动?它知道什么?它想要什么?它承诺了什么?
#这个阶段引入了什么?
BDI 框架:
- Belief:agent 对世界的信念;
- Desire:希望达成的目标;
- Intention:已经承诺执行的计划。
Agent Communication Languages 试图把通信标准化:
不是只传字符串,而是传“请求、告知、承诺、询问”等 speech act。
#之前的问题
agent 行为难解释,通信缺少语义。
#解决方法
用认知状态和通信行为建模 agent。
#新问题
BDI 和 ACL 很优雅,但工程上重、对开放环境的学习能力弱。
agent 的 belief 和 intention 通常由人设计,而不是从经验中学出来。
#如何推动下一阶段
它留下了两个问题:
- 如果 agent 有不同目标,如何保证合作?
- 如果环境变化,agent 如何学习?
前者走向 game theory / mechanism design;后者走向 MARL。
#阶段四:Game Theory / Mechanism Design / Negotiation
#关键词:激励、拍卖、协商、联盟、机制
代表方向:
- mechanism design
- auctions
- automated negotiation
- coalition formation
- social choice
- game-theoretic MAS
代表作品:
- Rosenschein & Zlotkin, Rules of Encounter
- Shoham & Leyton-Brown, Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations
- 拍卖、协商、联盟形成相关 MAS 工作
#前一阶段解决了什么?
BDI 解释了 agent 的信念和意图,但如果 agent 目标不一致,光靠通信语义不够。
#这个阶段引入了什么?
把 multi-agent 看成博弈:
- agent 有效用函数;
- 行为有策略性;
- 系统设计者需要设计机制,使个体理性导致整体可接受结果。
#之前的问题
agent 可能撒谎、搭便车、策略性操纵协议。
#解决方法
用拍卖、合同、协商、激励相容机制来约束行为。
#新问题
机制设计通常要求效用函数清楚、理性假设明确、参与者可建模。
但 LLM agent 和真实人类-机器混合系统里,效用、能力和错误模式都不稳定。
#如何推动下一阶段
它留下了一个至今仍关键的问题:
multi-agent 系统不是只要会说话,还要有激励结构和验证机制。
今天 LLM agent 的“debate / critic / reviewer / executor”本质上也在做一种简化机制设计,只是很多时候没有显式建模 incentives。
#阶段五:Swarm Intelligence
#关键词:无中心协作、局部规则、涌现、stigmergy
代表工作:
- Ant Colony Optimization, Dorigo
- Particle Swarm Optimization, Kennedy & Eberhart, 1995
- Stigmergy:通过环境留下痕迹间接通信
#前一阶段解决了什么?
Game-theoretic MAS 关注理性主体和机制,但很多群体智能不需要复杂理性。蚂蚁、鸟群、鱼群没有中央计划,却能形成路径、聚集、搜索。
#这个阶段引入了什么?
Swarm intelligence 强调:
- 单体规则简单;
- 通信局部;
- 控制去中心化;
- 全局模式涌现。
#之前的问题
复杂协议和理性建模成本高。
#解决方法
用简单局部规则和环境反馈形成全局行为。
#新问题
涌现行为难解释、难保证、难迁移。
它能搜索,但不一定能抽象推理;能形成模式,但不一定能遵守复杂目标。
#如何推动下一阶段
Swarm intelligence 给 MARL 和 open-ended agents 一个重要启发:
复杂行为可以从交互和环境反馈中产生,而不是完全由人手写。
这直接连接 self-play、autocurriculum 和 open-endedness。
#阶段六:Multi-Agent Reinforcement Learning
#关键词:非平稳性、credit assignment、CTDE、self-play
MARL 是 multi-agent 发展中的关键转折:
它不再主要靠人设计协议,而是希望 agent 通过交互学习策略。
#6.1 Independent Learners:最朴素但不稳定
#之前的问题
人工协议难以覆盖复杂环境。
#解决方法
每个 agent 把其他 agent 当成环境的一部分,独立学习。
#新问题
从单个 agent 视角看,环境是非平稳的,因为其他 agent 也在学习。
这会破坏普通 RL 的稳定性假设。
#6.2 MADDPG:集中 critic,应对非平稳
代表工作:
- Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, Lowe et al., 2017
arXiv: https://arxiv.org/abs/1706.02275
#之前的问题
独立学习中,每个 agent 看到的环境不断变化。
#解决方法
训练时使用 centralized critic,能看到其他 agent 的信息;执行时每个 agent 分散行动。
这就是后来非常重要的 CTDE:centralized training, decentralized execution。
#新问题
集中 critic 随 agent 数量增长会变复杂,而且 credit assignment 仍然困难。
#如何推动下一阶段
推动了 value decomposition:
既然团队 reward 很难分配,那能不能把全局价值函数分解成个体价值?
#6.3 VDN / QMIX:合作 MARL 的价值分解
代表工作:
- Value-Decomposition Networks, 2017
arXiv: https://arxiv.org/abs/1706.05296
- QMIX: Monotonic Value Function Factorisation, 2018
arXiv: https://arxiv.org/abs/1803.11485
#之前的问题
团队奖励无法告诉每个 agent 自己贡献了什么。
#解决方法
VDN:把全局 Q 值拆成个体 Q 值之和。
QMIX:用 monotonic mixing network 表示更灵活的联合价值,同时保证 decentralized argmax 可行。
#新问题
单调分解限制表达能力;复杂协作中个体贡献不一定是单调可加的。
#如何推动下一阶段
推动更复杂的 credit assignment、communication learning、attention-based MARL 和 transformer MARL。
#6.4 COMA:反事实 credit assignment
代表方向:
- Counterfactual Multi-Agent Policy Gradients
#之前的问题
团队 reward 下,很难知道某个 agent 行动是否关键。
#解决方法
用 counterfactual baseline:
比较“该 agent 实际动作”与“其他可能动作”的差异,估计其贡献。
#新问题
计算成本高,对复杂动作空间和长轨迹仍然困难。
#如何推动下一阶段
把 credit assignment 变成 MARL 核心问题之一。
这对今天 LLM multi-agent 也非常关键:多个 agent 协作完成代码修复时,到底 planner、coder、critic、tester 谁有贡献?
#6.5 MAPPO:简单 on-policy 方法的回归
代表工作:
- The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games, 2021
arXiv: https://arxiv.org/abs/2103.01955
#之前的问题
复杂 off-policy MARL 方法工程不稳定,调参困难。
#解决方法
认真调优 PPO,在 cooperative MARL 中获得强结果。
#新问题
样本效率和长任务泛化仍然有限。
#如何推动下一阶段
说明 multi-agent training 不一定总靠复杂结构,稳定训练 recipe 很重要。
这与今天 LLM agent RL 的趋势高度一致:很多进展来自训练流程、数据分布、环境设计,而不只是新模型结构。
#6.6 Self-play / Population-based Training / Open-endedness
代表工作:
- AlphaZero, 2017:self-play + search。
- OpenAI Five, 2018/2019:Dota 2 大规模 self-play。
- AlphaStar, 2019:StarCraft II,league training / population。
- Emergent Tool Use from Multi-Agent Autocurricula, 2019
arXiv: https://arxiv.org/abs/1909.07528
#之前的问题
人工课程有限,agent 容易过拟合静态任务。
#解决方法
让 agent 通过自我博弈或群体竞争产生课程。
对手不断变强,任务自动变难。
#新问题
自博弈可能走向狭窄策略空间;开放性难以控制;评测困难;安全风险增加。
#如何推动下一阶段
它把 multi-agent 推向一个重要思想:
环境 + 对手 + 群体分布 可以成为能力增长的发动机。
这正是今天 self-evolving agents、code agents、AI scientists 想借鉴的东西。
#4. LLM-based Multi-Agent Systems:为什么 2023 以后爆发?
LLM 出现后,multi-agent 突然被重新激活,原因不是“聊天好玩”,而是 LLM 改变了 agent 的接口。
以前一个 agent 要手工定义:
- 状态表示;
- 动作空间;
- 通信协议;
- 任务分解;
- domain knowledge;
- planner;
- executor。
LLM 让这些变成自然语言和代码:
- 状态可以是文本上下文;
- 动作可以是 tool call / code / browser action;
- 通信可以是自然语言;
- 计划可以由 LLM 生成;
- 领域知识来自预训练;
- 多 agent 可以通过角色 prompt 快速构造。
这大幅降低了构建 multi-agent system 的门槛,但也引入了幻觉、不可控、评测污染和长轨迹失败等问题。
#5. LLM Multi-Agent 代表工作的问题链
#5.1 Generative Agents:从任务求解到社会模拟
代表工作:
- Generative Agents: Interactive Simulacra of Human Behavior, 2023
arXiv / HF: https://huggingface.co/papers/2304.03442
#之前的问题
传统 NPC 或模拟 agent 行为机械,缺少记忆、反思和社会互动。
#解决方法
Generative Agents 提出:
- memory stream;
- reflection;
- planning;
- natural language interaction。
多个 agent 在 sandbox town 中形成日程、对话、传播信息等社会行为。
#新问题
这种行为“可信”不等于“可验证正确”。
它更像 social simulation,不是可靠任务执行系统。
#如何推动下一阶段
它证明了 LLM 可以作为 agent cognition 的核心,推动了 memory / reflection / planning 架构。
#5.2 CAMEL:role-playing 让 agent 自主对话协作
代表工作:
- CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, 2023
arXiv / HF: https://huggingface.co/papers/2303.17760
#之前的问题
LLM 通常需要人持续引导,难以自主展开协作。
#解决方法
CAMEL 用 role-playing 设定两个或多个角色,让它们围绕任务自主交流。
#新问题
角色设定能产生长对话,但不保证任务真实完成。
agent 可能陷入礼貌互夸、虚假共识或循环讨论。
#如何推动下一阶段
推动了“角色分工式 multi-agent”框架,如 AutoGen、MetaGPT、ChatDev。
#5.3 AutoGen:multi-agent conversation 变成工程框架
代表工作:
- AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, 2023
arXiv: https://arxiv.org/abs/2308.08155
#之前的问题
研究原型很多,但搭建 multi-agent workflow 成本高。
#解决方法
AutoGen 提供 conversable agents:
- assistant agent;
- user proxy agent;
- tool/code execution;
- human-in-the-loop;
- 多 agent conversation orchestration。
#新问题
框架降低了开发门槛,但 agent 编排质量仍依赖人工设计。
多 agent 不自动等于更强,经常只是把 prompt engineering 分散到多个角色。
#如何推动下一阶段
使 LLM multi-agent 从 paper demo 进入应用开发,并推动了可组合 agent framework 的生态。
#5.4 MetaGPT:把人类工作流编码成 agent 组织
代表工作:
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework, 2023
arXiv: https://arxiv.org/abs/2308.00352
#之前的问题
简单对话式 multi-agent 容易产生混乱,尤其在软件工程这类复杂任务中。
#解决方法
MetaGPT 把软件公司流程显式编码:
- product manager;
- architect;
- engineer;
- QA;
- structured documents;
- SOP-like workflow。
#新问题
流程强约束提高稳定性,但降低灵活性。
如果任务不符合预设流程,系统可能僵硬。
#如何推动下一阶段
它说明:
multi-agent 的有效性往往来自组织结构,而不是 agent 数量。
这对未来 agent pretraining / workflow data 很重要:模型需要学习高质量组织过程,而不是只学习单轮答案。
#5.5 ChatDev:软件开发中的角色化协作
代表工作:
- ChatDev: Communicative Agents for Software Development, 2023
arXiv: https://arxiv.org/abs/2307.07924
#之前的问题
软件开发涉及需求、设计、编码、测试,单一 LLM 容易遗漏环节。
#解决方法
ChatDev 把软件开发模拟成虚拟公司,通过多角色对话完成项目。
#新问题
对小型任务有效,但真实 repo 级 issue 修复需要代码搜索、测试运行、环境依赖、版本管理、长期记忆。
#如何推动下一阶段
推动 code agent 从“生成项目”转向“真实代码库维护”,也就是 SWE-bench / SWE-agent / Devin-style agents 的方向。
#5.6 AgentVerse:动态组队和涌现行为
代表工作:
- AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors, 2023
arXiv: https://arxiv.org/abs/2308.10848
#之前的问题
固定 agent 角色不一定适配不同任务。
#解决方法
AgentVerse 尝试动态组织 agent 群体,探索不同 agent 组合的协作效果。
#新问题
动态组队需要评价机制:谁该加入?谁该退出?如何判断贡献?
这又回到 multi-agent credit assignment。
#如何推动下一阶段
推动从静态 prompt role-play 走向 adaptive agent organization。
#5.7 Voyager:LLM agent 的长期技能积累
代表工作:
- Voyager: An Open-Ended Embodied Agent with Large Language Models, 2023
arXiv: https://arxiv.org/abs/2305.16291
#之前的问题
LLM agent 常常只解决一次性任务,缺少 lifelong learning。
#解决方法
Voyager 在 Minecraft 中结合:
- automatic curriculum;
- skill library;
- executable code as action;
- iterative prompting and feedback。
#新问题
技能库主要是外部记忆和代码积累,不是模型权重层面的能力更新。
泛化到更开放真实世界仍困难。
#如何推动下一阶段
它非常重要,因为它把 LLM agent 推向:
- self-evolving agent;
- code-as-action;
- experience replay;
- skill library;
- open-ended exploration。
这与 wenjun 关注的 self-evolving code agent 直接相关。
#5.8 Reflexion:不用更新权重的“语言强化学习”
代表工作:
- Reflexion: Language Agents with Verbal Reinforcement Learning, 2023
arXiv / HF: https://huggingface.co/papers/2303.11366
#之前的问题
传统 RL 需要大量样本和权重更新,LLM agent 在线 fine-tune 成本高。
#解决方法
失败后让 agent 生成文字反思,存入 episodic memory,下次作为上下文使用。
#新问题
反思可能是错的;自我批评能力不可靠。
后续工作如 Can Large Language Models Really Improve by Self-critiquing Their Own Plans? 指出 LLM 自我验证常出现 false positive,需要外部 verifier。
#如何推动下一阶段
推动了 reflection / critique / memory 机制,但也让社区意识到:
LLM 自己说“我错了”不等于真的学会了。
#5.9 CodeAct / SWE-agent / Devin-style:代码成为 agent action space
代表工作:
- Executable Code Actions Elicit Better LLM Agents, 2024
arXiv / HF: https://huggingface.co/papers/2402.01030
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, 2023
arXiv / HF: https://huggingface.co/papers/2310.06770
- AutoDev: Automated AI-Driven Development, 2024
arXiv / HF: https://huggingface.co/papers/2403.08299
#之前的问题
自然语言动作不够精确,真实任务需要执行、测试、调试。
#解决方法
让 agent 用代码、shell、browser、IDE 操作作为动作。
这比“说计划”更接近真实执行。
#新问题
代码 agent 可能:
- 过拟合测试;
- 修改错误文件;
- 引入隐藏 bug;
- 消耗大量 token 和计算;
- 在长任务中失去目标。
#如何推动下一阶段
推动 agent evaluation 从聊天任务转向真实 repo、真实 OS、真实网页和真实 ML 工程。
#6. 2024-2026 最新进展:LLM Multi-Agent 的主线变化
2024-2026 的关键变化是:
领域从“搭框架”转向“真实环境、长期任务、可验证执行、训练 agent、评测可信度和安全”。
#6.1 Frameworks:从 role-play 到 workflow / tool orchestration
#代表系统
- AutoGen
- MetaGPT
- ChatDev
- AgentVerse
- LangGraph / CrewAI 等工程框架
- MCP-based tool ecosystems
#最新趋势
早期框架主要回答:
“如何让多个 LLM agent 互相说话?”
现在的问题变成:
“如何让多个 agent 在工具、环境、状态、记忆和权限约束下可靠完成任务?”
也就是说,multi-agent framework 正在从 conversation graph 变成 execution graph。
#判断
有价值的是:
- 显式状态机;
- 可恢复执行;
- tool sandbox;
- memory management;
- evaluator / verifier;
- human-in-the-loop;
- 失败轨迹记录;
- agent contribution tracing。
价值较低的是:
- 简单多角色 prompt;
- 无评测的 agent swarm;
- 用更多 agent 掩盖单 agent 能力不足。
#6.2 应用:代码、网页、OS、科研成为主战场
#代码 agent
代表 benchmark / work:
- SWE-bench, 2023
- SWE-bench Live, 2025
arXiv: https://arxiv.org/abs/2505.23419
- SWE-bench+, 2024
- Multi-SWE-bench, 2025
- SWE-Bench-CL, 2025
- SWE-ABS, 2026
arXiv: https://arxiv.org/abs/2603.00520
核心转变:
- 从 HumanEval 式单函数生成;
- 到真实 GitHub issue;
- 再到动态 issue、跨语言、持续学习和 adversarial benchmark strengthening。
这说明代码 agent 的核心瓶颈不再是“会不会写代码”,而是:
- repo understanding;
- long-context retrieval;
- build/test/debug loop;
- patch minimality;
- hidden test generalization;
- continual maintenance;
- anti-overfitting。
#网页 agent
代表工作:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, 2023
arXiv: https://arxiv.org/abs/2307.13854
- VisualWebArena
- WorkArena
- BrowserGym
核心问题:
网页任务要求 agent:
- 读页面;
- 操作表单;
- 理解视觉布局;
- 处理登录/状态;
- 多步导航;
- 避免不可逆操作。
单纯文本推理不够,VLM、browser state、DOM、工具调用都重要。
#OS / computer-use agent
代表工作:
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, 2024
arXiv: https://arxiv.org/abs/2404.07972
- OSWorld-Human, 2025
- OSWorld-MCP, 2025
核心问题:
OS 任务比网页更难,因为它包含:
- GUI;
- 文件系统;
- 多应用;
- 系统状态;
- 长时间操作;
- 不可逆副作用。
2025 的 OSWorld-Human 特别强调效率:
agent 不能只看成功率,还要看操作步数、时间、成本和人类可用性。
#科研 / ML engineering agent
代表工作:
- MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, 2024
arXiv: https://arxiv.org/abs/2410.07095
- AI Scientist, 2024
arXiv / HF: https://huggingface.co/papers/2408.06292
- AI research agents for MLE-bench, 2025
核心问题:
科研 agent 不只是写代码,还要:
- 选题;
- 读文献;
- 提假设;
- 设计实验;
- 运行训练;
- 分析结果;
- 写论文;
- 判断 novelty。
这类任务最接近 long-horizon autonomous agent,也最容易暴露当前 agent 的问题:
它们经常能生成“像研究”的文本,但很难稳定产生真正可复现、可验证、有价值的新发现。
#6.3 Benchmark:从静态 QA 到真实交互环境
#代表 benchmark
| Benchmark | 年份 | 主要评测内容 | 意义 |
|---|---|---|---|
| AgentBench | 2023 | 多环境 LLM agent | 早期统一评估 LLM-as-agent |
| WebArena | 2023 | 真实网站任务 | 把 web agent 拉向真实交互 |
| SWE-bench | 2023 | GitHub issue 修复 | 代码 agent 进入真实 repo |
| GAIA | 2023 | 通用 assistant | 强调多模态、网页、工具和推理 |
| AgentBoard | 2024 | 多轮 agent 分析评测 | 关注部分可观测和多轮能力 |
| OSWorld | 2024 | 真实电脑环境 | computer-use agent 标准化 |
| AgentGym | 2024 | 多环境 agent 进化 | 面向 self-evolving agent |
| MLE-bench | 2024 | ML engineering | 科研/ML 自动化评估 |
| SWE-bench Live | 2025 | 动态 issue | 缓解污染和过拟合 |
| AgentGym-RL | 2025 | 多轮 RL 训练 | 把 agent benchmark 和 RL 训练连接 |
| MCP-AgentBench | 2025 | MCP 工具调用 | 评估新工具协议生态 |
| SWE-ABS | 2026 | adversarial benchmark strengthening | 暴露 inflated success rates |
#6.4 安全与对齐:multi-agent 会放大风险
Multi-agent agentic systems 的风险比单模型更复杂:
- 错误级联:一个 agent 的错误被其他 agent 当作事实。
- 虚假共识:多个 agent 互相赞同,给人“更可信”的错觉。
- 权限扩散:多个 agent 调用工具时,权限边界更难控制。
- 责任归因困难:出了错,不知道是 planner、executor、critic、tool 还是 memory 的问题。
- benchmark gaming:agent 学会利用测试,而不是真解决任务。
- 成本不可控:多 agent 长链条运行 token、工具、时间成本爆炸。
- prompt injection / tool injection:web/OS agent 尤其容易受环境恶意文本影响。
2024-2026 的评测趋势明显开始关注这些问题:
- benchmark contamination;
- hidden tests;
- live benchmark;
- adversarial strengthening;
- efficiency metrics;
- reproducibility;
- sandbox safety;
- tool permissions;
- process logging。
#7. 技术分类表
#7.1 协作机制
| 类型 | 核心思想 | 优点 | 缺点 | 代表 |
|---|---|---|---|---|
| Blackboard | 多模块共享中间状态 | 简单、可解释 | 中心化、调度困难 | HEARSAY-II |
| Contract Net | manager 发布任务,worker 投标 | 适合任务分配 | 依赖能力评估和可信投标 | Smith 1980 |
| Role-play | 用角色 prompt 分工 | 快速构造 | 容易表演化、无保证 | CAMEL, ChatDev |
| SOP workflow | 把人类流程编码进系统 | 稳定、可控 | 僵硬、泛化弱 | MetaGPT |
| Planner-worker | 一个规划,多个执行 | 工程实用 | planner 容易成为瓶颈 | AutoGen 类 |
| Debate / Critic | 多 agent 互相审查 | 可发现部分错误 | 可能虚假共识 | multi-agent debate |
| Dynamic team | 根据任务动态组队 | 灵活 | 贡献评价难 | AgentVerse |
| Population / self-play | 群体训练产生课程 | 可产生复杂策略 | 难控制、难评测 | AlphaStar, OpenAI Five |
#7.2 通信机制
| 类型 | 描述 | 典型问题 |
|---|---|---|
| 显式协议 | Contract Net, ACL, KQML | 语义清楚但重 |
| 自然语言通信 | LLM agents 直接对话 | 灵活但不可靠 |
| 参数/隐向量通信 | MARL 中学习通信 channel | 高效但不可解释 |
| 环境通信 | stigmergy,通过环境留下痕迹 | 去中心化但难控 |
| Tool-mediated communication | 通过 issue tracker、文件、代码、数据库交流 | 接近真实工作流,但状态管理复杂 |
| Memory-mediated communication | 共享长期记忆或经验库 | 易污染、需检索和遗忘机制 |
#7.3 规划与记忆
| 类型 | 核心 | 代表 | 瓶颈 |
|---|---|---|---|
| 短上下文 planning | prompt 中直接列计划 | ReAct 类 | 长任务易漂移 |
| Reflection memory | 失败后文字反思 | Reflexion | 反思可能错误 |
| Episodic memory | 存过去轨迹 | Generative Agents | 检索和压缩困难 |
| Skill library | 保存可执行技能 | Voyager | 技能迁移和验证难 |
| Workflow memory | 学习可复用流程 | Agent Workflow Memory | workflow 泛化仍弱 |
| World model / latent model | 在隐空间预测后果 | Dreamer/MuZero 思路 | LLM agent 中尚未成熟 |
| External verifier | 用测试、编译器、环境反馈验证 | SWE-bench, code agents | verifier 覆盖有限 |
#7.4 训练方式
| 类型 | 说明 | 优点 | 缺点 |
|---|---|---|---|
| 手写 prompt / workflow | 人设计 agent 流程 | 快速 | 不可扩展 |
| Imitation / SFT | 学专家轨迹 | 稳定 | 覆盖有限 |
| RLHF / RLAIF | 偏好优化 | 对齐人类偏好 | 不一定提升长任务执行 |
| Multi-turn RL | 对 agent 轨迹做 RL | 适合长任务 | reward 稀疏、credit assignment 难 |
| Self-play | 自我对抗/协作 | 自动课程 | 可能过拟合 |
| Population-based training | 多策略群体共同进化 | 增强多样性 | 成本高 |
| Tool-feedback learning | 从编译、测试、网页环境反馈学习 | 可验证 | 反馈局部且可能被 exploit |
| Self-evolving memory | 不改权重,积累经验/技能 | 成本低 | 容易积累错误 |
| Continual fine-tuning | 从新任务持续更新模型 | 长期进化 | 遗忘、安全、数据质量难 |
#7.5 评测方式
| 类型 | 示例 | 评测什么 | 风险 |
|---|---|---|---|
| 静态 QA | GAIA 部分任务 | 工具+推理 | 污染 |
| 交互环境 | AgentBench, WebArena | 多步决策 | 环境维护成本 |
| 代码修复 | SWE-bench | repo 理解和 patch | test overfitting |
| OS 操作 | OSWorld | GUI/VLM/tool use | 安全和效率 |
| ML 工程 | MLE-bench | 实验设计和训练 | 成本高 |
| Live benchmark | SWE-bench Live | 新鲜任务 | 难复现 |
| Adversarial benchmark | SWE-ABS | 抗投机能力 | 构造难 |
| Process metrics | AgentBoard, AI Agents That Matter | 成本、步骤、鲁棒性 | 指标选择困难 |
#8. 当前瓶颈与开放问题
#8.1 多 agent 是否真的比单 agent 强?
这是最基础但经常被回避的问题。
很多 LLM multi-agent paper 的增益可能来自:
- 更长上下文;
- 更多采样;
- 更复杂 prompt;
- 更强 base model;
- 更多工具调用;
- 人工 workflow;
- hidden human prior。
而不是 multi-agent 本身。
未来需要更严格 ablation:
- 同 token budget 下 multi-agent vs single-agent;
- 同工具调用次数下比较;
- 同模型、同采样数、同上下文长度;
- 统计不同任务类型是否真的需要 multi-agent。
判断:
multi-agent 真正有优势的任务通常满足:
- 可自然分解;
- 子任务之间需要不同技能;
- 有外部验证;
- 错误可局部隔离;
- 多视角审查能降低风险;
- 并行搜索有价值。
如果任务只是单轮推理,多 agent 往往只是昂贵包装。
#8.2 Credit assignment:谁贡献了成功?
MARL 里 credit assignment 已经很难;LLM multi-agent 更难。
例如一个 code agent 系统中:
- planner 提了方向;
- retriever 找到文件;
- coder 写 patch;
- tester 运行测试;
- critic 指出问题;
- finalizer 清理代码。
如果最终成功,应该奖励谁?
如果失败,又是谁的问题?
当前很多系统只看最终 success rate,缺少过程级 attribution。
开放问题:
- 能否为 LLM agent 设计 counterfactual evaluation?
- 能否自动移除某个 agent 看性能变化?
- 能否学习 agent routing policy?
- 能否把 multi-agent trace 转成训练数据并分配 credit?
这与 wenjun 关注的 长轨迹 agent RL 直接相关。
#8.3 Long-horizon planning:长任务不是多说几轮就能解决
LLM agents 的常见失败:
- 前几步正确,后面目标漂移;
- 反复尝试同一错误;
- 忽视环境反馈;
- 过早相信自己完成;
- 计划太粗;
- 子任务依赖关系混乱;
- 无法恢复中断状态。
这不是简单加 memory 就能解决的。
更根本的问题是:
agent 需要可执行的、可验证的、可恢复的层级计划表示。
未来方向:
- hierarchical task graph;
- plan-state alignment;
- latent plan representation;
- environment-grounded verifier;
- failure recovery policy;
- subgoal reward modeling。
这连接 model-based RL:
如果 agent 能在隐空间模拟“下一步行动可能导致什么”,它就不必完全依赖试错。
#8.4 Model-based RL 与 LLM agent 还没有真正融合
传统 model-based RL 如 Dreamer、MuZero 等强调:
- 学世界模型;
- 在模型中规划;
- 用 imagined rollouts 提高样本效率。
LLM agent 也在做“想象”,但多数是语言层面的:
- “我接下来应该……”
- “如果这样做可能……”
- “让我反思一下……”
问题是这些语言想象未必 grounded。
开放问题:
- LLM agent 的 world model 应该是文本、代码、状态图,还是 latent vector?
- 网页/OS/code 环境能否学习可预测的 transition model?
- 能否在 latent-space 中做 planning,再映射到 tool actions?
- 能否用 execution feedback 校正语言模型的世界模型?
- 多 agent 是否可以分工学习不同局部 dynamics?
这可能是下一代 agent research 的关键:
从 prompt planning 走向 learned environment modeling。
#8.5 Latent-space reasoning:自然语言推理太慢、太显式、太容易污染
当前 LLM multi-agent 大量依赖显式语言对话。
优点是可读,缺点是:
- token 成本高;
- 中间推理可能被污染;
- agent 之间互相诱导错误;
- 隐含不确定性无法表达;
- 很难做连续优化。
latent-space reasoning 的潜力在于:
- 压缩长轨迹状态;
- 表示不确定性;
- 支持快速 rollouts;
- 用 learned verifier 评估计划;
- 多 agent 在 latent belief space 中协调。
但挑战是可解释性和可控性。
未来可能出现混合范式:
- latent planner;
- language interface;
- tool-grounded verifier;
- memory compression;
- trajectory-level RL。
#8.6 Self-evolving code agent:目前更多是经验积累,不是真进化
Voyager、Reflexion、AgentGym 等方向都在探索 self-evolving agents。
但今天很多“自进化”其实是:
- 存 prompt;
- 存反思;
- 存代码片段;
- 存 workflow;
- 下次检索再用。
这不是坏事,但它不是完整学习。
真正的 self-evolving code agent 至少需要:
- 从失败 issue 中提取可复用技能;
- 判断技能是否真的有效;
- 避免错误经验污染记忆;
- 将经验压缩成可泛化 policy;
- 在新 repo / 新语言 / 新框架中迁移;
- 持续更新而不灾难性遗忘;
- 形成自己的 benchmark curriculum;
- 能自动生成训练数据和验证任务。
这与 code agent pretraining / post-training 数据分布高度相关。
#8.7 Agent 预训练数据如何塑造能力?
当前 foundation model 预训练大多不是为 agent 优化的。
模型看过大量文本和代码,但不一定看过高质量的 agent trajectories。
Agent 能力需要的数据可能包括:
- multi-step tool-use traces;
- debugging trajectories;
- failed attempts and recovery;
- human expert workflows;
- code review conversations;
- issue discussion → patch → test → merge;
- browser task trajectories;
- OS operation traces;
- experiment logs;
- research notebooks;
- planner-executor-critic traces;
- long-horizon task decompositions;
- verifier feedback。
关键不是“更多数据”,而是数据分布中是否包含:
- 行动;
- 观察;
- 失败;
- 修正;
- 验证;
- 长期目标保持;
- 多角色协作;
- 环境反馈。
研究判断:
未来 agent 模型的差距,很可能来自是否拥有高质量 long-horizon interaction data,而不是只来自参数规模。
#8.8 Benchmark 污染、过拟合与“看起来进步”
2024-2026 的 benchmark 发展已经暴露一个问题:
- 静态 benchmark 容易被训练集污染;
- agent 可以利用测试漏洞;
- 成功率不代表真实可用;
- 成本和效率常被忽略;
- 人工选择任务会偏向 demo-friendly cases。
相关工作:
- AI Agents That Matter, 2024 指出 agent benchmark 过度关注 accuracy,忽视成本、复杂性和现实效用。
arXiv / HF: https://huggingface.co/papers/2407.01502
- SWE-bench Live, 2025 用动态 issue 缓解污染。
- SWE-ABS, 2026 通过 adversarial benchmark strengthening 暴露 inflated success rates。
- OSWorld-Human, 2025 强调效率,而不只是成功率。
开放问题:
- 如何做 live benchmark 的同时保证可复现?
- 如何评估 agent 的长期维护能力?
- 如何评估 agent 是否真正理解 repo,而不是 patch hacking?
- 如何评估 agent 的安全边界?
- 如何把 benchmark 从 leaderboard 变成训练环境?
#9. 研究机会判断:哪些值得做,哪些只是工程堆叠?
#9.1 值得做的问题一:长轨迹 Agent RL 的 credit assignment
#为什么重要?
LLM agent 终于进入真实环境,但训练仍然弱。
单纯 SFT expert trajectories 只能模仿成功路径,无法很好处理失败恢复。
#关键问题
- 多轮工具调用中的 reward 如何分配?
- 中间步骤如何定义 value?
- 对失败轨迹如何学习?
- 多 agent trace 中如何分配 credit?
- 能否训练一个 critic 评估 partial progress?
#可能方向
- trajectory-level process reward model;
- counterfactual agent ablation;
- subgoal-level reward decomposition;
- code/test/browser feedback as dense reward;
- multi-agent critic;
- hindsight relabeling for agent tasks。
这是一个非常有研究价值的方向,不只是工程。
#9.2 值得做的问题二:agent 的 model-based / world-model learning
#为什么重要?
长任务靠 trial-and-error 太贵。
如果 agent 能预测工具调用、代码修改、网页操作的后果,就能更高效规划。
#可能方向
- repo-level world model:预测 patch 对测试和依赖的影响;
- browser world model:预测点击/输入后的页面状态;
- OS world model:预测 GUI action 后状态;
- research world model:预测实验设置对结果的影响;
- multi-agent world model:预测其他 agent 的行为和可靠性。
#难点
- 状态巨大;
- transition 部分可观测;
- stochastic;
- action 语义复杂;
- 需要结合 symbolic state 和 latent state。
但这正是有价值的地方。
#9.3 值得做的问题三:latent-space planning + language/tool grounding
#为什么重要?
纯语言 planning 太慢、太不稳定;纯 latent planning 又不可解释。
未来可能需要两者结合。
#可能方向
- latent task graph;
- compressed memory state;
- differentiable verifier;
- latent rollout + textual rationale;
- language-to-latent action abstraction;
- agent trajectory representation learning。
#与 multi-agent 的关系
不同 agent 可以共享 latent task state,而不是只通过冗长自然语言通信。
这可能显著降低通信成本并减少误解。
#9.4 值得做的问题四:self-evolving code agent 的经验压缩
#为什么重要?
代码 agent 天然有外部 verifier:测试、编译、lint、CI。
这是训练 self-evolving agent 最好的环境之一。
#关键问题
- 如何从一次 bug fix 中抽象出可复用 skill?
- 如何判断 skill 是否泛化?
- 如何自动构造 curriculum?
- 如何防止 memory bloat 和错误经验污染?
- 如何把外部 memory 转成模型内部能力?
#可能实验平台
- SWE-bench / SWE-bench Live;
- Multi-SWE-bench;
- SWE-Bench-CL;
- real repo issue streams;
- synthetic repo evolution environments。
这是 wenjun 关注方向中最值得长期投入的方向之一。
#9.5 值得做的问题五:agent pretraining data 的结构化塑造
#为什么重要?
如果 base model 没见过高质量 long-horizon agent traces,后训练很难补。
#可能数据类型
- issue → reasoning → code search → patch → test → revision;
- browser task → observation → action → error recovery;
- ML experiment logs;
- multi-agent design review;
- code review and CI failure traces;
- human debugging screen recordings转文本/动作;
- synthetic but verified tool-use trajectories。
#研究问题
- 什么样的 trajectory 数据最能提升 agent?
- 成功轨迹和失败轨迹比例多少合适?
- 是否需要 pretraining 阶段加入 action-observation format?
- midtraining 是否可以桥接 text pretraining 和 agent post-training?
- agent 数据是否会损害普通语言能力?
- 如何 decontaminate benchmark tasks?
这和 foundation model training recipe 直接相关。
#9.6 值得做的问题六:multi-agent evaluation 的因果化
#为什么重要?
现在很多 multi-agent 系统只报告整体成功率,不知道结构是否真的有效。
#可能方向
- agent knockout test:移除某个 agent 看性能变化;
- role permutation test:交换角色看是否仍有效;
- communication bottleneck test:限制通信看性能;
- adversarial agent test:插入错误 agent 看鲁棒性;
- cost-normalized score;
- process trace causal attribution。
这能把 multi-agent 从 demo science 变成可解释工程和科学研究。
#9.7 相对不值得投入的方向
#1. 无评测的“更多 agent 更智能”
如果没有严格 budget control 和 ablation,只是堆 agent,很难产生科学价值。
#2. 纯角色扮演式 agent society
除非用于社会模拟或数据生成,否则对真实任务帮助有限。
#3. 只换 prompt 名字的 framework
框架很多,但如果没有新的执行语义、训练机制或评测洞见,价值有限。
#4. 没有 verifier 的 reflection
自我反思如果没有外部 grounding,很容易变成漂亮但错误的解释。
#5. 静态 benchmark leaderboard chasing
尤其是已污染或可 hack 的 benchmark,不应作为核心研究目标。
#10. 一条清晰的发展主线总结
可以把 multi-agent 的历史理解成一条连续问题链:
#10.1 第一问:多个专家如何共享信息?
答案:Blackboard systems。
新问题:谁负责分配任务?
#10.2 第二问:多个 agent 如何分配任务?
答案:Contract Net / task allocation。
新问题:agent 有自己的状态和目标,如何建模?
#10.3 第三问:agent 如何表达信念、目标和意图?
答案:BDI / ACL。
新问题:目标不一致时如何协作?
#10.4 第四问:自利 agent 如何形成系统级好结果?
答案:game theory / mechanism design。
新问题:真实环境太复杂,手写机制不够。
#10.5 第五问:简单个体能否通过局部规则形成全局智能?
答案:swarm intelligence。
新问题:涌现行为难控制、难泛化。
#10.6 第六问:agent 能否通过交互学习协作策略?
答案:MARL / CTDE / self-play。
新问题:封闭环境、reward 明确、动作空间有限,难迁移到真实任务。
#10.7 第七问:LLM 能否让 agent 用自然语言、代码和工具执行真实任务?
答案:LLM agents / AutoGen / MetaGPT / ChatDev / Voyager。
新问题:长任务不稳定、幻觉、评测污染、成本高。
#10.8 第八问:如何训练、评测和安全部署长期自治 agent?
答案正在形成:
AgentGym-RL、SWE-bench Live、OSWorld、MLE-bench、MCP-AgentBench、process reward、tool-grounded RL、self-evolving memory、live environments。
但这还没有真正解决。
#11. 面向 wenjun 的最终研究判断
如果把 multi-agent 和 wenjun 关注的方向连接起来,我会给出以下判断。
#11.1 Multi-agent 的下一阶段不是“更多 agent”,而是“可学习的 agent organization”
现在很多系统的组织结构是人手写的:
- planner;
- coder;
- reviewer;
- tester;
- manager。
未来更重要的是让系统学会:
- 什么时候需要几个 agent;
- 每个 agent 应该承担什么角色;
- 是否需要 debate;
- 是否需要 external verifier;
- 什么时候停止;
- 谁的建议可信;
- 失败后如何重组。
这可以看成 agent organization policy learning。
#11.2 Long-horizon Agent RL 是核心,但不能直接套传统 RL
传统 RL 的状态、动作、reward 相对清楚。
LLM agent 的状态是长上下文、工具输出、文件系统、网页、历史轨迹;动作是文本、代码、API、GUI;reward 往往稀疏且延迟。
所以更现实的路线是:
- 从可验证环境开始:code、web、OS、ML engineering。
- 构造过程奖励:测试进展、错误减少、subgoal 完成。
- 训练 critic / verifier。
- 做 trajectory-level RL。
- 再引入 multi-agent credit assignment。
- 最后走向 self-evolving curriculum。
#11.3 Model-based RL 可以成为 agent 研究的差异化突破口
当前 LLM agent 大多是 reactive:
- 观察;
- 想一步;
- 调工具;
- 再观察。
真正强的 agent 应该能:
- 在内部模拟多个可能行动;
- 估计失败风险;
- 选择信息增益最高的动作;
- 计划回滚路径;
- 复用过去环境模型。
这与 MuZero / Dreamer 的思想一致,但需要改造到文本-代码-工具环境。
一个有潜力的问题:
能否为 code agent 学一个 repo dynamics model,用于预测 patch、test failure、dependency breakage 和 hidden bug 风险?
这比单纯堆 prompt 更有研究深度。
#11.4 Latent-space reasoning 是降低长轨迹成本的关键
多 agent 自然语言对话成本高,而且容易互相污染。
未来可能需要:
- latent belief state;
- latent task graph;
- latent memory compression;
- latent plan rollout;
- language only for interface and explanation;
- tool execution for grounding。
这会把 agent 从“聊天式协作”推进到“内部状态协作”。
#11.5 Self-evolving code agent 是最值得落地的试验场
代码环境有三个优势:
- 动作可执行;
- 反馈相对客观;
- 数据和任务源源不断。
因此,self-evolving code agent 可以作为研究平台,探索:
- 自动课程;
- failure mining;
- skill abstraction;
- memory-to-weight distillation;
- multi-agent credit assignment;
- live benchmark;
- continual learning;
- tool-use RL。
如果要选一个方向长期做,我会优先选:
基于真实 repo issue streams 的 self-evolving code agent:结合 multi-agent workflow、tool-grounded process reward、经验压缩和 continual RL。
#11.6 Agent 数据分布可能比 agent 框架更重要
很多 agent framework 只是把 base model 能力重新包装。
真正决定上限的是模型是否在训练中见过:
- 长任务;
- 工具反馈;
- 失败恢复;
- 多角色协作;
- 环境状态转移;
- 代码执行;
- 测试失败;
- 真实人类工程流程。
所以一个很有价值的问题是:
什么样的 agent trajectory data 能最有效提升 long-horizon tool-use capability?
这可以和 foundation model midtraining / post-training recipe 结合起来做。
#12. 关键来源与代表链接
以下列出报告中用到的主要代表工作,便于后续追踪。
#Classical MAS / DAI
- Reid G. Smith, The Contract Net Protocol: High-Level Communication and Control in a Distributed Problem Solver, 1980.
- Rao & Georgeff, BDI Agents: From Theory to Practice, 1995.
- Wooldridge & Jennings, Intelligent Agents: Theory and Practice, 1995.
- Shoham & Leyton-Brown, Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations, 2009.
- KQML / FIPA ACL agent communication language literature.
- HEARSAY-II blackboard architecture.
#Swarm / Game / Mechanism
- Dorigo et al., Ant Colony Optimization.
- Kennedy & Eberhart, Particle Swarm Optimization, 1995.
- Rosenschein & Zlotkin, Rules of Encounter.
- Coalition formation / auctions / automated negotiation MAS literature.
#MARL
- Lowe et al., Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, 2017.
https://arxiv.org/abs/1706.02275
- Sunehag et al., Value-Decomposition Networks For Cooperative Multi-Agent Learning, 2017.
https://arxiv.org/abs/1706.05296
- Rashid et al., QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning, 2018.
https://arxiv.org/abs/1803.11485
- Yu et al., The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games, 2021.
https://arxiv.org/abs/2103.01955
- Baker et al., Emergent Tool Use From Multi-Agent Autocurricula, 2019.
https://arxiv.org/abs/1909.07528
- AlphaZero, OpenAI Five, AlphaStar self-play / population training literature.
#LLM Agents / Multi-Agent
- Park et al., Generative Agents: Interactive Simulacra of Human Behavior, 2023.
https://huggingface.co/papers/2304.03442
- Li et al., CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, 2023.
https://huggingface.co/papers/2303.17760
- Wu et al., AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, 2023.
https://arxiv.org/abs/2308.08155
- Hong et al., MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework, 2023.
https://arxiv.org/abs/2308.00352
- Qian et al., ChatDev: Communicative Agents for Software Development, 2023.
https://arxiv.org/abs/2307.07924
- Chen et al., AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors, 2023.
https://arxiv.org/abs/2308.10848
- Wang et al., Voyager: An Open-Ended Embodied Agent with Large Language Models, 2023.
https://arxiv.org/abs/2305.16291
- Shinn et al., Reflexion: Language Agents with Verbal Reinforcement Learning, 2023.
https://huggingface.co/papers/2303.11366
- Executable Code Actions Elicit Better LLM Agents, 2024.
https://huggingface.co/papers/2402.01030
- AutoDev: Automated AI-Driven Development, 2024.
https://huggingface.co/papers/2403.08299
#Benchmarks / Evaluation
- AgentBench: Evaluating LLMs as Agents, 2023.
https://arxiv.org/abs/2308.03688
- WebArena: A Realistic Web Environment for Building Autonomous Agents, 2023.
https://arxiv.org/abs/2307.13854
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, 2023.
https://huggingface.co/papers/2310.06770
- GAIA: a benchmark for General AI Assistants, 2023.
https://huggingface.co/papers/2311.12983
- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents, 2024.
https://arxiv.org/abs/2401.13178
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, 2024.
https://arxiv.org/abs/2404.07972
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments, 2024.
https://arxiv.org/abs/2406.04151
- AI Agents That Matter, 2024.
https://huggingface.co/papers/2407.01502
- MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, 2024.
https://arxiv.org/abs/2410.07095
- The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, 2024.
https://huggingface.co/papers/2408.06292
- SWE-bench Goes Live!, 2025.
https://arxiv.org/abs/2505.23419
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning, 2025.
https://arxiv.org/abs/2509.08755
- MCP-AgentBench, 2025.
https://arxiv.org/abs/2509.09734
- SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark, 2026.
https://arxiv.org/abs/2603.00520
#13. 自审修改记录
#问题 1:初稿容易变成论文列表
修改:
把报告重构为“问题链”:每个阶段都写“之前的问题—解决方法—新问题—如何推动下一阶段”,避免平铺论文。
#问题 2:LLM multi-agent 容易和传统 MAS 割裂
修改:
增加从 blackboard、Contract Net、BDI、ACL、机制设计到 AutoGen/MetaGPT 的连续线索,指出今天 planner-worker、role-play、tool orchestration 与早期 MAS 的继承关系。
#问题 3:容易过度吹捧 multi-agent
修改:
加入“multi-agent 是否真的比 single-agent 强”的专门讨论,强调 budget-controlled ablation、cost-normalized evaluation 和 agent contribution tracing。
#问题 4:MARL 与 LLM agent 的连接不足
修改:
专门加入 credit assignment、CTDE、self-play、population training 与 LLM agent long-horizon RL 的对应关系。
#问题 5:2024-2026 最新进展可能只列 benchmark
修改:
把最新进展按 framework、应用、评测、安全、长期自治几个维度组织,并指出 benchmark 从静态任务转向 live、OS、ML engineering、MCP 和 adversarial strengthening。
#问题 6:没有充分连接 wenjun 关注点
修改:
单独写研究机会判断,重点连接:
- 长轨迹 agent RL;
- model-based RL;
- latent-space reasoning;
- self-evolving code agent;
- agent 预训练数据分布;
- multi-agent evaluation 因果化。
#问题 7:安全和评测可信度不足
修改:
加入 benchmark contamination、test overfitting、虚假共识、权限扩散、prompt/tool injection、成本效率等问题,并引用 AI Agents That Matter、SWE-bench Live、SWE-ABS、OSWorld-Human 等趋势。
#14. 最终 takeaway
Multi-agent 的历史不是一串 buzzword,而是一条连续的难题链:
单体智能不够 → 多模块共享 → 任务分配 → 通信语义 → 激励机制 → 群体涌现 → 多智能体学习 → LLM 工具化 agent → 长期自治与自我进化。
今天 LLM multi-agent 最大的机会不在“多放几个角色聊天”,而在:
- 让 agent organization 可学习;
- 让长轨迹执行可训练;
- 让环境反馈成为 reward;
- 让 self-evolving memory 变成可验证能力增长;
- 让 model-based / latent reasoning 支撑长程规划;
- 让 benchmark 从静态 leaderboard 变成真实训练与验证环境。
如果要选最值得深入的研究方向,我会选:
面向真实代码库和工具环境的 self-evolving multi-agent code system:用 live issue streams 构造持续任务分布,用测试/CI/代码审查作为 grounded verifier,用 process reward 和 counterfactual credit assignment 训练长轨迹 agent policy,并研究如何把经验记忆压缩进模型能力。
这条线既承接 multi-agent 的历史核心问题,也最接近下一代 agentic foundation model 的真正瓶颈。