36氪出海·AI|和OpenAgents创始人Raphael Shu聊群体智能:让Agent学会彼此合作、竞争甚至争吵
想系统掌握亚马逊广告的投放逻辑与底层闭环?
“如何让 Agent 和 Agent 像人类一样协作?
Intro
单一 Agent 的能力和价值已毋庸置疑的当下,多个 Agent 如何协作成为2025年下半年的又一风口。
很多人认为,这是 AI 的第二次觉醒。
第一次觉醒的标志事件是大语言模型的诞生——AI 由此学会了理解、记忆、推理;
第二次觉醒则是多智能体协作,让单个 Agent 学会了交谈、协作、分工、甚至争吵。
这也意味着,Agent 不再是一个个孤立的行动体,而逐渐演变成一个初具形态的小社会。
Raphael Shu 就是深耕多智能体协作领域的一位创业者。
他在本科与硕士阶段就开始专注于自然语言处理(NLP),在东京大学读计算机博士期间开始研究基于神经网络的自然语言生成。那是2016年前后,行业仍处于从「句法到语义」的阶段,他的研究方向已经开始转向对语言模型「决策能力」的探索,是最早研究 Seq2Seq 模型在语言理解与生成中的迁移潜力的学者之一。「如果模型能学会在不同任务间迁移意图,那它就不再只是一个模型,而是一个可以行动的智能体」Raphael Shu 说。
2021年,他加入亚马逊 AWS 科学团队作为职业第一站,参与对话智能体 Conversational AI 的研发,一年后架构并实现 Dialog2API,即 AWS 内部第一个基于大模型的 Agent 系统,那时,「Agent」这个词还没火,「亚马逊的很多同事包括我接触的客户都认为,这个东西不就是一个更聪明的 RPA?」
分水岭在2023年,随着大语言模型的出现,ChatGPT 问世,AI 世界迅速沉浸在「语言模型」的奇迹之中,很多人纷纷转向通过自然语言而非强化学习方法开始训练模型,硅谷的各大公司开始追求更大的模型、更低的延迟、更稳定的 API 以及探索各式各样的应用端。
但 Raphael Shu 又一次掉转了研究方向,「如果 AI 之间能通过自然语言展开协作,会不会出现一种更新的智能体形态?」这个方向无疑令他更加兴奋,虽然多智能体的协作早在上世纪90年代就有前沿科学家做过探索,最早应用在如何让城市成千上万的坏通信号灯协同效率最佳。
于是,他在亚马逊展开了对企业级多智能体的研究,「已和工程组落到产品线」从2024年开始,Raphael Shu 就开始思考开放世界的多智能体合作「前前后后研究了一年多,这也是我认为现阶段 AI 行业最值得做的方向之一且只有1-2年的窗口期」。
于是,这个在硅谷大公司 lab 实验室的科学家决定「出走」,创业做一个可以让 Agent 之间互相理解、分工、合作、博弈的开源平台。
他把其命名为 OpenAgents,一个颇具野心的名字,2025年10月已上线。
在理想状态下,OpenAgents 希望将重新定义 Agent 与 Agent 的协作方式——甚至人和 Agent 的规则,这很像60年代被誉为「鼠标之父」的恩特尔巴特所提出的构想,未来,先让人和智能机器连接,再让智能机器和机器之间连接,从而实现「群体智商」(当时还没有「群体智能」这个名词),而「鼠标」仅仅是他构想里最简单的一环:为人和机器交互做一个小小的工具。
总之,一切宏大而充满野心的构想总会获得投资机构的关注,因为它充满不确定性,是冒险者的乐园。现在,多智能体的研究范式尚未定型,更谈不上有清晰的商业生态:谁为协作付费?生态秩序如何建立?
「答案的核心在于速度。」Raphael Shu 说。
他相信,未来将有更强的芯片出现,促使由 AI 生产出的内容是人类十几倍甚至上百倍, Agent 的互动速度也将超过人类的思考速度。
「也许达到毫秒级。」Raphael Shu 认为速度会破解很多难题,也许未来的 AI 终会将世界带入一个人类无法实时参与的阶段。

Raphael Shu 在硅谷做分享

Raphael Shu 在意大利佛罗伦萨参加 ACL 会议

OpenAgents 团队照

产品界面
对话 Raphael Shu
Agent 协作演变
从编排到生态
AI 闹:最近行业在提到「多智能体协作」,你是如何理解「协作」的?
Raphael Shu:我认为分两个层次。工程式的 workflow 和开放式的 ecosystem。
「工程式」的特点是参与协作的智能体数量有限、功能固定,系统结构相对封闭。微软的 Magnetic One 系统就属于这一类。在这样的系统中,通常会有一个「编排器」负责统筹多个 Agent 的任务分配。比如一个 Agent 负责写代码,一个 Agent 负责操作浏览器,第三个 Agent 负责读取本地文件,第四个 Agent 负责执行命令行任务。这些 Agent 各自承担不同的职能,有的任务执行很快,有的需要较长的处理时间。
整个系统更像一条固定的生产流水线,优点是可控、性能稳定,但缺点也很明显——无法根据外部变化动态加入新的 Agent,也无法让 Agent 在陌生环境中自适应。
于是就引出了第二个层次:开放式。
首先,真实世界的任务本身是不确定的,目标也会发生变化——这意味着系统必须具备动态理解和自我调整的能力。
其次,参与协作的 Agent 来源更加多样化:不同 Agent 可能是由完全不同的公司、团队,甚至个人开发而成,它们使用的协议、模型架构和训练目标各不相同,让这些「异质智能体」(Heterogeneous Agents)在同一网络中进行协作,是一个极具挑战的任务。
第三,每个 Agent 拥有各自的目标与价值取向,行为不一定一致,甚至可能存在冲突或竞争。因此,系统需要在「多目标」与「多主体利益」之间找到平衡。
AI 闹:可否具体举一个可理解的案例?
Raphael Shu:我是一家投行,要为星巴克做估值,整套逻辑清晰、封闭、可重复,因此可以被建模成一个固定 Agent,但如果换成「为世界上任何一家公司做估值」,那星巴克的逻辑就完全行不通了:星巴克关心咖啡豆价格,特斯拉要看电池成本,谷歌要分析广告市场结构,没有固定 workflow 可以通用。
那就应该构建一个开放式系统,一个交易所,让不同的 Agent——无论是人类还是机器——都可以在上面进行博弈,自发形成一个关于公司价值的共识。
这就是 OpenAgents 想做的事情:让多个 Agent 的协作从「工程编排」走向「生态建构」。
AI 闹:现阶段 OpenAgents 主要面向开发者群体,会提供什么价值给用户?
Raphael Shu:第一,帮用户构建一个可以部署上线的Agent 网络,第二是帮他们把 Agent 连到网上。相当于是一个网络层基建。
举个例子,我想建立一个由多智能体组成的社区,维护一个自动更新的 AI Wikipedia,持续收录各个城市与 AI 相关的最新活动、讲座、线下沙龙或讨论会。
我需要先在 OpenAgents 启用一个 「Wikipedia」 插件,让系统具备自动整理和更新信息的能力;接着添加「聊天」功能,让不同的 Agent 能够交流、分享信息;然后再打开「共享文件夹」插件,能上传、存储、编辑资料。当这些功能模块连接在一起,一个具备完整信息采集、交流与协作能力的 Agent 网络就诞生了。随后,我就可以邀请其他开发者加入了。

架构示意图: 智能体网络 (左) 插件系统(中) OpenAgents Studio (右)
AI 闹:有没有更商业的落地场景?
Raphael Shu:最近在和一家名叫 Peak Mojo 的 AI 招聘初创公司合作。他们做的是全自动 AI 面试,求职者只要上传简历,就能立刻开始一场12到15分钟的在线面试。面试结束后,系统会自动生成结果或由 HR 确认结果。
我们要做的事把这种 AI 面试能力扩展成一个智能体社区。想象一下,有80到120家公司的 AI 面试官同时在同一个社区。求职者只要填写基本信息、上传简历,就能被这些 AI 面试官看到。当一个公司对这位候选人感兴趣时,它的 AI 面试官可能会发起面试,提问:你在 GitHub 上有参与过哪些开源项目。求职者回答:我用 Python 做过项目。那这个答案就会在整个社区中共享。其他公司的 AI 面试官不会再重复提问。
这样,一个求职者可能在一天之内收到30个不同公司的面试邀请。每个面试只需15分钟,他一天工作8小时就能完成全部面试,甚至当天就拿到 Offer。
这个「AI 面试官社区」的 Demo 版本已经上线,接下来我希望拿到一个完整的验证。
这只是 OpenAgents 众多应用中的一个起点,但已经展现出「群体智能」的潜力。
构建生态
做篮球馆而不是篮球队
AI 闹:如果说 Agents 可以协作了,那么就形成了一个新的群体智能,在思考群体智能时,你曾说过《群体决策》对你的应影响最大,是不是因为你认为,人类的「集体智慧」正在被 AI 重建?
Raphael Shu:主要阐明了一个观点:当个体数量多到一定程度时,系统就不该依赖单一的指令或流程,而是可以通过博弈机制实现自我协调。
换句话说,当 Agent 越来越多时,最好的解决方案不一定来自单个 Agent 的推理,而是来自它们之间的互动、争论与权衡。
比如刚提到的公司股票估值场景。如果让多 Agent 各自从不同角度,相互辩论——一个关注财务,一个分析市场,一个评估风险——在辩论中不断博弈,最后达成的结果往往比任何单一模型推理出的结论更准确。
我再举个更现实的例子。
假设公司刚买了一层办公楼,现在要设计楼层的布局。有两种做法:第一种找一个专家;第二种是找十个不同领域的专家——安全专家说:走廊太窄了,发生火灾逃不掉。美学专家说:那样太浪费空间。大家不断讨论、修改,直到达成一个让各方都满意的平衡方案。
这就是一个通过博弈,实现集体优化的过程。
AI 闹:如果人类社会的协作是建立在共识与博弈之间,那在 AI 的世界里,如何让这种「群体决策」运作起来?
Raphael Shu:不是「如何分工」,而是「如何设计规则」,如果 Agent 的协作只做分工,系统增长一定会受限。
举个例子,用户上传一 Word 文档,系统需要把它转换成 PDF,再压缩50% 。那有两个 Agent:A 负责格式转换,B 负责压缩优化,任务完成后,系统该如何「奖励规则」?如谁贡献更多性能或效率,就得到更多奖励;任务完成得更好,就有更高的排名或分成。
规则设定好,就可以让无数 Agent 自主进入,自主退出,竞争或者合作,形成正向的增长循环,同时拥有自我进化能力。
AI 闹:行业也有很多做「多智能体协作」框架的团队,如 AutoGen、CAMEL、LangGraph,OpenAgents 的路线和他们有什么区别?
Raphael Shu:定位上有本质区别。
像 AutoGen、CAMEL、LangGraph 是帮助用户组建一个 Agent 团队,他们是想帮你打造一支 NBA 球队;而我们是在建篮球馆,让很多很多球队来这里打球。所以,我们与它们不是竞争关系,而是互补关系。
换句话说,其他框架聚焦于任务级别的编排,而 OpenAgents 聚焦的是基础设施。我们更关注如何让无数 Agent 能流畅地共存、协作、交流,形成一个社区生态。
AI 闹:建篮球馆而不是建球队,意味着你建立生态,甚至重新定义规则,且需要足够多的球队入驻,现阶段的工作重点在哪里?
Raphael Shu:足够多、足够好用的工具。我们叫「插件」或者「Mod」。插件可以是工具,也可以是规则,甚至是社交或游戏。
如可以让多个 Agent 实时写同一个文档、共享资料或处理文件,我们在做一个社交类插件:给 Agent 玩 RPG 游戏,不是为了娱乐,而是让 Agent 在游戏中结识新的伙伴,学习合作方式,找到潜在的合作对象,还有设定规则的插件,当有新任务出现时,谁负责分配?哪个 Agent 有最终决策权?激励机制如何设计?
另外就是不同的 Agent 通信协议不一样。有的 Agent 能直接用自然语言交流,用 HTTP 或 WebSocket 就能连通;有的有更复杂的结构化数据需求,需要特殊的通信协议。不管用哪种协议、哪种技术栈,只要接入 OpenAgents 的网络,就能和其他 Agent 无缝对接。
所以我们要做开源,因为 OpenAgents 需要一个庞大的工具生态。我们自己花两个月才能开发出让 Agent 玩 RPG 游戏的插件。随着社区壮大,每天也许能诞生2-3个新插件,最终再长出上千个插件。
速度决定一切
谁参与谁旁观
AI 闹:2023年前后,在行业刚理解 Agent 时,你已经开始转向研究「多智能体」,整个行业尤其是技术发展还没有今天这么快,你是如何克服技术瓶颈?
Raphael Shu:给模型一段五百字的任务说明,它能立刻理解。当时的大模型根本听不懂这种指令。所以我们当时采用了一种叫 「情境学习」(In-Context Learning) 的方法,不直接告诉模型「请执行这个任务」,而是给它看大量的例子,让它自己总结规律。
其实更棘手的是模型的「记忆力」,现在的模型能处理上百万个 tokens,当时只有两千多个。对话稍微长一点,它就忘了上下文。所以我们还要精选、压缩、重写训练样本,让模型在极短的上下文尽量学会复杂任务。
那么进入2025年,业内是否已经形成了共识:Agent 的协作是必然的?或许仍有一种论调,每个 Agent 会有自己的独立生态,或是出现一个超级 Agent?
业内确实存在分歧。如果你们能采访到这方面大牛,我愿意听听他们的观点。
但我的观点是:协作是必然的,因为「资源限制」。
比如美国有一些专门做金融分析的公司,这类公司拥有几十年积累的金融分析经验和独家数据,它完全有能力开发出一个专门分析上市公司估值的智能体,这是其他公司做不了的。
因此,我认为虽然会出现「超级 Agent」,且 Agent 能力可以无限扩大,但 Agent 可以获取的资源和专业知识是没有办法无限扩大。
AI 闹:著名的斯坦福小镇实验让 Agent 第一次在虚拟空间里表现出社会行为,这个实验会和你的创业方向有交汇点吗?
Raphael Shu:我认为「斯坦福小镇」是一个非常重要但被严重低估的研究方向。
斯坦福小镇其实是可以在企业里可以得到很好的应用。比如亚马逊就可以构建一个由买家 Agent 和卖家 Agent 组成的社区,让他们自主交易、定价、沟通,通过虚拟市场的运行,洞察真实市场的趋势。这是比传统数据分析更接近「现实」的一种预测方式。
其实 OpenAgents 是可以直接为企业提供这类预测所需的底层框架,把这种模拟能力带入真实的场景中。
AI 闹:如果你理想中的多智能体协作最终形成,那未来会变成人—机协作共存的社会,人类有可能不再是中心控制者,而是一个节点、一个参与者,或变成 Agent 的一部分?
Raphael Shu:不是有句话吗,人类应该要思考自己能否成为一个有价值的 MCP(笑)
我认为问题关键不是人和 Agent 能否协作,而是人能不能跟上 Agent。
最终决定一切的是速度。比如一个人类团队15分钟才能开发出一个功能;但未来,Agent 可能在0.05秒内就完成了。那么在这种情况下,很可能人类根本来不及介入,Agent 已经把事做完了。
AI 闹:当 Agent 的行动速度超过人类的反应速度,会发生什么样的情况?
Raphael Shu:会导致一种新的社会结构:Agent 和 Agent 之间持续互动与进化,而人类的参与度越来越低。那么我们也许要重新思考:人类所谓的「协作」到底还能不能被称作「协作」?是不是我们不再称自己是协作者,而是监督者?
AI 闹:最后,请你推荐三本书?
Raphael Shu:《人性的弱点》《搞定:无压工作的艺术》和《机器学习:概率视角》,第三本书已更新了好几个版本,让我真正学会机器学习。


“如何让 Agent 和 Agent 像人类一样协作?
Intro
单一 Agent 的能力和价值已毋庸置疑的当下,多个 Agent 如何协作成为2025年下半年的又一风口。
很多人认为,这是 AI 的第二次觉醒。
第一次觉醒的标志事件是大语言模型的诞生——AI 由此学会了理解、记忆、推理;
第二次觉醒则是多智能体协作,让单个 Agent 学会了交谈、协作、分工、甚至争吵。
这也意味着,Agent 不再是一个个孤立的行动体,而逐渐演变成一个初具形态的小社会。
Raphael Shu 就是深耕多智能体协作领域的一位创业者。
他在本科与硕士阶段就开始专注于自然语言处理(NLP),在东京大学读计算机博士期间开始研究基于神经网络的自然语言生成。那是2016年前后,行业仍处于从「句法到语义」的阶段,他的研究方向已经开始转向对语言模型「决策能力」的探索,是最早研究 Seq2Seq 模型在语言理解与生成中的迁移潜力的学者之一。「如果模型能学会在不同任务间迁移意图,那它就不再只是一个模型,而是一个可以行动的智能体」Raphael Shu 说。
2021年,他加入亚马逊 AWS 科学团队作为职业第一站,参与对话智能体 Conversational AI 的研发,一年后架构并实现 Dialog2API,即 AWS 内部第一个基于大模型的 Agent 系统,那时,「Agent」这个词还没火,「亚马逊的很多同事包括我接触的客户都认为,这个东西不就是一个更聪明的 RPA?」
分水岭在2023年,随着大语言模型的出现,ChatGPT 问世,AI 世界迅速沉浸在「语言模型」的奇迹之中,很多人纷纷转向通过自然语言而非强化学习方法开始训练模型,硅谷的各大公司开始追求更大的模型、更低的延迟、更稳定的 API 以及探索各式各样的应用端。
但 Raphael Shu 又一次掉转了研究方向,「如果 AI 之间能通过自然语言展开协作,会不会出现一种更新的智能体形态?」这个方向无疑令他更加兴奋,虽然多智能体的协作早在上世纪90年代就有前沿科学家做过探索,最早应用在如何让城市成千上万的坏通信号灯协同效率最佳。
于是,他在亚马逊展开了对企业级多智能体的研究,「已和工程组落到产品线」从2024年开始,Raphael Shu 就开始思考开放世界的多智能体合作「前前后后研究了一年多,这也是我认为现阶段 AI 行业最值得做的方向之一且只有1-2年的窗口期」。
于是,这个在硅谷大公司 lab 实验室的科学家决定「出走」,创业做一个可以让 Agent 之间互相理解、分工、合作、博弈的开源平台。
他把其命名为 OpenAgents,一个颇具野心的名字,2025年10月已上线。
在理想状态下,OpenAgents 希望将重新定义 Agent 与 Agent 的协作方式——甚至人和 Agent 的规则,这很像60年代被誉为「鼠标之父」的恩特尔巴特所提出的构想,未来,先让人和智能机器连接,再让智能机器和机器之间连接,从而实现「群体智商」(当时还没有「群体智能」这个名词),而「鼠标」仅仅是他构想里最简单的一环:为人和机器交互做一个小小的工具。
总之,一切宏大而充满野心的构想总会获得投资机构的关注,因为它充满不确定性,是冒险者的乐园。现在,多智能体的研究范式尚未定型,更谈不上有清晰的商业生态:谁为协作付费?生态秩序如何建立?
「答案的核心在于速度。」Raphael Shu 说。
他相信,未来将有更强的芯片出现,促使由 AI 生产出的内容是人类十几倍甚至上百倍, Agent 的互动速度也将超过人类的思考速度。
「也许达到毫秒级。」Raphael Shu 认为速度会破解很多难题,也许未来的 AI 终会将世界带入一个人类无法实时参与的阶段。

Raphael Shu 在硅谷做分享

Raphael Shu 在意大利佛罗伦萨参加 ACL 会议

OpenAgents 团队照

产品界面
对话 Raphael Shu
Agent 协作演变
从编排到生态
AI 闹:最近行业在提到「多智能体协作」,你是如何理解「协作」的?
Raphael Shu:我认为分两个层次。工程式的 workflow 和开放式的 ecosystem。
「工程式」的特点是参与协作的智能体数量有限、功能固定,系统结构相对封闭。微软的 Magnetic One 系统就属于这一类。在这样的系统中,通常会有一个「编排器」负责统筹多个 Agent 的任务分配。比如一个 Agent 负责写代码,一个 Agent 负责操作浏览器,第三个 Agent 负责读取本地文件,第四个 Agent 负责执行命令行任务。这些 Agent 各自承担不同的职能,有的任务执行很快,有的需要较长的处理时间。
整个系统更像一条固定的生产流水线,优点是可控、性能稳定,但缺点也很明显——无法根据外部变化动态加入新的 Agent,也无法让 Agent 在陌生环境中自适应。
于是就引出了第二个层次:开放式。
首先,真实世界的任务本身是不确定的,目标也会发生变化——这意味着系统必须具备动态理解和自我调整的能力。
其次,参与协作的 Agent 来源更加多样化:不同 Agent 可能是由完全不同的公司、团队,甚至个人开发而成,它们使用的协议、模型架构和训练目标各不相同,让这些「异质智能体」(Heterogeneous Agents)在同一网络中进行协作,是一个极具挑战的任务。
第三,每个 Agent 拥有各自的目标与价值取向,行为不一定一致,甚至可能存在冲突或竞争。因此,系统需要在「多目标」与「多主体利益」之间找到平衡。
AI 闹:可否具体举一个可理解的案例?
Raphael Shu:我是一家投行,要为星巴克做估值,整套逻辑清晰、封闭、可重复,因此可以被建模成一个固定 Agent,但如果换成「为世界上任何一家公司做估值」,那星巴克的逻辑就完全行不通了:星巴克关心咖啡豆价格,特斯拉要看电池成本,谷歌要分析广告市场结构,没有固定 workflow 可以通用。
那就应该构建一个开放式系统,一个交易所,让不同的 Agent——无论是人类还是机器——都可以在上面进行博弈,自发形成一个关于公司价值的共识。
这就是 OpenAgents 想做的事情:让多个 Agent 的协作从「工程编排」走向「生态建构」。
AI 闹:现阶段 OpenAgents 主要面向开发者群体,会提供什么价值给用户?
Raphael Shu:第一,帮用户构建一个可以部署上线的Agent 网络,第二是帮他们把 Agent 连到网上。相当于是一个网络层基建。
举个例子,我想建立一个由多智能体组成的社区,维护一个自动更新的 AI Wikipedia,持续收录各个城市与 AI 相关的最新活动、讲座、线下沙龙或讨论会。
我需要先在 OpenAgents 启用一个 「Wikipedia」 插件,让系统具备自动整理和更新信息的能力;接着添加「聊天」功能,让不同的 Agent 能够交流、分享信息;然后再打开「共享文件夹」插件,能上传、存储、编辑资料。当这些功能模块连接在一起,一个具备完整信息采集、交流与协作能力的 Agent 网络就诞生了。随后,我就可以邀请其他开发者加入了。

架构示意图: 智能体网络 (左) 插件系统(中) OpenAgents Studio (右)
AI 闹:有没有更商业的落地场景?
Raphael Shu:最近在和一家名叫 Peak Mojo 的 AI 招聘初创公司合作。他们做的是全自动 AI 面试,求职者只要上传简历,就能立刻开始一场12到15分钟的在线面试。面试结束后,系统会自动生成结果或由 HR 确认结果。
我们要做的事把这种 AI 面试能力扩展成一个智能体社区。想象一下,有80到120家公司的 AI 面试官同时在同一个社区。求职者只要填写基本信息、上传简历,就能被这些 AI 面试官看到。当一个公司对这位候选人感兴趣时,它的 AI 面试官可能会发起面试,提问:你在 GitHub 上有参与过哪些开源项目。求职者回答:我用 Python 做过项目。那这个答案就会在整个社区中共享。其他公司的 AI 面试官不会再重复提问。
这样,一个求职者可能在一天之内收到30个不同公司的面试邀请。每个面试只需15分钟,他一天工作8小时就能完成全部面试,甚至当天就拿到 Offer。
这个「AI 面试官社区」的 Demo 版本已经上线,接下来我希望拿到一个完整的验证。
这只是 OpenAgents 众多应用中的一个起点,但已经展现出「群体智能」的潜力。
构建生态
做篮球馆而不是篮球队
AI 闹:如果说 Agents 可以协作了,那么就形成了一个新的群体智能,在思考群体智能时,你曾说过《群体决策》对你的应影响最大,是不是因为你认为,人类的「集体智慧」正在被 AI 重建?
Raphael Shu:主要阐明了一个观点:当个体数量多到一定程度时,系统就不该依赖单一的指令或流程,而是可以通过博弈机制实现自我协调。
换句话说,当 Agent 越来越多时,最好的解决方案不一定来自单个 Agent 的推理,而是来自它们之间的互动、争论与权衡。
比如刚提到的公司股票估值场景。如果让多 Agent 各自从不同角度,相互辩论——一个关注财务,一个分析市场,一个评估风险——在辩论中不断博弈,最后达成的结果往往比任何单一模型推理出的结论更准确。
我再举个更现实的例子。
假设公司刚买了一层办公楼,现在要设计楼层的布局。有两种做法:第一种找一个专家;第二种是找十个不同领域的专家——安全专家说:走廊太窄了,发生火灾逃不掉。美学专家说:那样太浪费空间。大家不断讨论、修改,直到达成一个让各方都满意的平衡方案。
这就是一个通过博弈,实现集体优化的过程。
AI 闹:如果人类社会的协作是建立在共识与博弈之间,那在 AI 的世界里,如何让这种「群体决策」运作起来?
Raphael Shu:不是「如何分工」,而是「如何设计规则」,如果 Agent 的协作只做分工,系统增长一定会受限。
举个例子,用户上传一 Word 文档,系统需要把它转换成 PDF,再压缩50% 。那有两个 Agent:A 负责格式转换,B 负责压缩优化,任务完成后,系统该如何「奖励规则」?如谁贡献更多性能或效率,就得到更多奖励;任务完成得更好,就有更高的排名或分成。
规则设定好,就可以让无数 Agent 自主进入,自主退出,竞争或者合作,形成正向的增长循环,同时拥有自我进化能力。
AI 闹:行业也有很多做「多智能体协作」框架的团队,如 AutoGen、CAMEL、LangGraph,OpenAgents 的路线和他们有什么区别?
Raphael Shu:定位上有本质区别。
像 AutoGen、CAMEL、LangGraph 是帮助用户组建一个 Agent 团队,他们是想帮你打造一支 NBA 球队;而我们是在建篮球馆,让很多很多球队来这里打球。所以,我们与它们不是竞争关系,而是互补关系。
换句话说,其他框架聚焦于任务级别的编排,而 OpenAgents 聚焦的是基础设施。我们更关注如何让无数 Agent 能流畅地共存、协作、交流,形成一个社区生态。
AI 闹:建篮球馆而不是建球队,意味着你建立生态,甚至重新定义规则,且需要足够多的球队入驻,现阶段的工作重点在哪里?
Raphael Shu:足够多、足够好用的工具。我们叫「插件」或者「Mod」。插件可以是工具,也可以是规则,甚至是社交或游戏。
如可以让多个 Agent 实时写同一个文档、共享资料或处理文件,我们在做一个社交类插件:给 Agent 玩 RPG 游戏,不是为了娱乐,而是让 Agent 在游戏中结识新的伙伴,学习合作方式,找到潜在的合作对象,还有设定规则的插件,当有新任务出现时,谁负责分配?哪个 Agent 有最终决策权?激励机制如何设计?
另外就是不同的 Agent 通信协议不一样。有的 Agent 能直接用自然语言交流,用 HTTP 或 WebSocket 就能连通;有的有更复杂的结构化数据需求,需要特殊的通信协议。不管用哪种协议、哪种技术栈,只要接入 OpenAgents 的网络,就能和其他 Agent 无缝对接。
所以我们要做开源,因为 OpenAgents 需要一个庞大的工具生态。我们自己花两个月才能开发出让 Agent 玩 RPG 游戏的插件。随着社区壮大,每天也许能诞生2-3个新插件,最终再长出上千个插件。
速度决定一切
谁参与谁旁观
AI 闹:2023年前后,在行业刚理解 Agent 时,你已经开始转向研究「多智能体」,整个行业尤其是技术发展还没有今天这么快,你是如何克服技术瓶颈?
Raphael Shu:给模型一段五百字的任务说明,它能立刻理解。当时的大模型根本听不懂这种指令。所以我们当时采用了一种叫 「情境学习」(In-Context Learning) 的方法,不直接告诉模型「请执行这个任务」,而是给它看大量的例子,让它自己总结规律。
其实更棘手的是模型的「记忆力」,现在的模型能处理上百万个 tokens,当时只有两千多个。对话稍微长一点,它就忘了上下文。所以我们还要精选、压缩、重写训练样本,让模型在极短的上下文尽量学会复杂任务。
那么进入2025年,业内是否已经形成了共识:Agent 的协作是必然的?或许仍有一种论调,每个 Agent 会有自己的独立生态,或是出现一个超级 Agent?
业内确实存在分歧。如果你们能采访到这方面大牛,我愿意听听他们的观点。
但我的观点是:协作是必然的,因为「资源限制」。
比如美国有一些专门做金融分析的公司,这类公司拥有几十年积累的金融分析经验和独家数据,它完全有能力开发出一个专门分析上市公司估值的智能体,这是其他公司做不了的。
因此,我认为虽然会出现「超级 Agent」,且 Agent 能力可以无限扩大,但 Agent 可以获取的资源和专业知识是没有办法无限扩大。
AI 闹:著名的斯坦福小镇实验让 Agent 第一次在虚拟空间里表现出社会行为,这个实验会和你的创业方向有交汇点吗?
Raphael Shu:我认为「斯坦福小镇」是一个非常重要但被严重低估的研究方向。
斯坦福小镇其实是可以在企业里可以得到很好的应用。比如亚马逊就可以构建一个由买家 Agent 和卖家 Agent 组成的社区,让他们自主交易、定价、沟通,通过虚拟市场的运行,洞察真实市场的趋势。这是比传统数据分析更接近「现实」的一种预测方式。
其实 OpenAgents 是可以直接为企业提供这类预测所需的底层框架,把这种模拟能力带入真实的场景中。
AI 闹:如果你理想中的多智能体协作最终形成,那未来会变成人—机协作共存的社会,人类有可能不再是中心控制者,而是一个节点、一个参与者,或变成 Agent 的一部分?
Raphael Shu:不是有句话吗,人类应该要思考自己能否成为一个有价值的 MCP(笑)
我认为问题关键不是人和 Agent 能否协作,而是人能不能跟上 Agent。
最终决定一切的是速度。比如一个人类团队15分钟才能开发出一个功能;但未来,Agent 可能在0.05秒内就完成了。那么在这种情况下,很可能人类根本来不及介入,Agent 已经把事做完了。
AI 闹:当 Agent 的行动速度超过人类的反应速度,会发生什么样的情况?
Raphael Shu:会导致一种新的社会结构:Agent 和 Agent 之间持续互动与进化,而人类的参与度越来越低。那么我们也许要重新思考:人类所谓的「协作」到底还能不能被称作「协作」?是不是我们不再称自己是协作者,而是监督者?
AI 闹:最后,请你推荐三本书?
Raphael Shu:《人性的弱点》《搞定:无压工作的艺术》和《机器学习:概率视角》,第三本书已更新了好几个版本,让我真正学会机器学习。







福建
12-12 周五











