网易首页 > 网易号 > 正文 申请入驻

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

0
分享至


新智元报道

编辑:LRST

【新智元导读】在AI浪潮席卷全球的2025年,大语言模型(LLM)已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了:这些智能体一旦部署,就如「冻结的冰块」,难以适应瞬息万变的世界。试想,一个客服智能体面对突发的新产品政策时束手无策,或一个科研助手忽略了最新发表的算法——这样的场景,不仅低效,还可能酿成灾难。近期,格拉斯哥大学、剑桥大学、谢菲尔德大学、新加坡国立大学、UCL等机构的学者发布了最新综述,系统梳理了AI智能体自进化的核心框架与挑战,并为研究者提供了一套清晰可落地的研发路线图。

LLM驱动的AI智能体已展现出惊人潜力:它们以LLM为核心,集成感知模块(处理文本/图像/音频/视频)、规划模块(如链式思考CoT或树式思考ToT)、记忆模块(短期上下文存储与长期知识检索)和工具模块(调用API如搜索引擎或代码执行器)。

在单智能体系统中,这些组件协同工作,处理从网页导航、代码生成、投资辅助到生物医学分析的任务。而在多智能体系统(MAS)中,智能体间通过协作(如辩论或任务分解)攻克复杂问题,模拟人类团队的群体智能。

但问题显而易见:现有的智能体系统依赖专家的手工搭建,并且一旦被部署后就会始终维持固定的架构和功能。

一旦环境改变(如用户改变意图、出现新工具或者信息来源出现变化),手动重配置就成了瓶颈——耗时、费力、不具规模化。

论文直击这一痛点,引入「自进化AI智能体」(Self-Evolving AI Agents)的概念:这些系统通过与环境的持续交互并获得反馈,自主优化内部组件,目标是适应变化的任务、上下文和资源,同时确保安全、性能提升和自主性。


论文链接:https://arxiv.org/pdf/2508.07407

项目地址:https://github.com/EvoAgentX/EvoAgentX

研究人员强调,这不是科幻,而是从基础模型的静态能力向终身智能体系统的桥梁。

为了让进化有序,作者借鉴艾萨克·阿西莫夫的机器人三定律,创新提出「自进化AI智能体三定律」:

Endure(安全适应),任何修改必须保证系统安全与稳定。例如,医疗 AI 智能体在优化诊断模型时,绝不能降低对患者安全的保障。

Excel(性能保持),在安全前提下,必须保持或提升现有任务性能。不能为了适应新场景,导致核心功能(如客服的问题解决率)下降。

Evolve(自主进化),在前两定律基础上,自主优化内部组件以适应任务、环境或资源变化。例如,金融 AI 智能体需自主调整分析模型,应对市场突发波动。

这三定律如AI的「内在宪法」,分层设计(第二定律不能违背第一),确保进化不失控,而是有序推进。

值得一提的是,这篇综述已经冲上了Hugging Face Daily Paper热榜前三名,并且在X上和GPT5账号进行了神奇的联动:


看来即使是LLM也会被自进化这个话题所吸引呢。

该团队同时维护全球首个AI智能体自进化开源框架 ——EvoAgentX,旨在构建一个可信赖的 AI 智能体自进化生态体系。

从「固定工具」到「自主进化」

AI智能体四次范式飞跃

论文进一步描绘了LLM终身学习的范式,传统AI系统往往是 「一次性产品」:训练完成后就固定不变,面对动态环境时需要人工重新配置。

而自进化AI智能体的突破,在于构建了持续自我优化的闭环。

从早期静态预训练(MOP,Model Offline Pretraining),依赖大规模静态数据;

到在线适应(MOA,Model Online Adaptation),引入微调和RLHF;再到多智能体协调(MAO,Multi-Agent Orchestration),智能体间消息交换解决复杂任务;

最终抵达多智能体自进化(MASE,Multi-Agent Self-Evolving),智能体群体基于环境反馈和元奖励,持续精炼一切——从提示词到交互拓扑结构。


表1详细对比了四个范式:MOP的交互仅限于静态数据和损失函数;MASE则通过环境信号驱动行为优化、提示词优化等技术。这不仅仅是技术升级,更是范式革命——AI从「一次性训练」转向「终身学习」.

统一框架

自进化的「建筑蓝图」

论文提出的统一框架(图 3)揭示了自进化的底层逻辑,拆解为一个闭环迭代优化循环。


四大数据流环环相扣:

系统输入(System Inputs):包括任务描述、训练数据集或具体实例(如输入-输出对),定义优化边界。任务级优化针对整体性能,实例级则细化单个案例。

智能体系统(Agent System):核心执行者,可单智能体或多智能体形式,涵盖LLM、提示词、记忆、工具、工作流和通信机制。优化可针对单个组件(如提示词)或联合(如提示词+拓扑)。

环境(Environment):模拟真实世界,提供操作上下文和反馈信号——从量化指标(如准确率、F1分数、成功率)到LLM评估器生成的文本反馈。

优化器(Optimisers):大脑中枢,通过搜索空间(e.g.,提示词模板、工具选择)和优化算法(规则启发式、梯度下降、贝叶斯优化、MCTS、RL或进化策略)更新系统,寻找最佳配置。

例如,一个代码生成智能体的进化过程可能是:输入「提升 Python 代码调试效率」的任务→智能体尝试不同的工具调用策略→在真实代码环境中测试(环境)→优化器根据调试成功率调整策略→迭代升级。

从单智能体「修炼」到多智能体「协作」

基于框架,论文系统分类优化技术(见图2的视觉分类树,覆盖2023-2025年方法)

单智能体优化:聚焦个体提升

LLM行为优化:训练式如SFT(STaR自训练理性)和RL(Self-Rewarding自我奖励);测试时扩展如反馈导向(Baldur验证器)和搜索(Tree-of-Thoughts多路径探索)。

提示词优化:编辑式(GRIPS渐进式提示词)、生成式(OPRO零样本优化)、文本梯度式(TextGrad模拟梯度)和进化式(EvoPrompt遗传算法)。

记忆优化:短期记忆(如COMEDY动态总结历史)和长期记忆(如MemGPT RAG增强检索)。

工具优化:训练式(ToolLLM工具调用微调)和推理时(EASYTOOL工具链选择),甚至自主创建工具(如CREATOR生成新API)。

多智能体优化:从手动设计转向自进化

提示词优化:扩展到团队角色(如AutoAgents自动分配)。

拓扑优化:代码级工作流(AutoFlow动态流程)和通信图(GPTSwarm蜂群式交互)。

统一优化:基于代码(ADAS智能体设计空间)、基于搜索(EvoAgent进化智能体)和基于学习(MaAS多智能体自监督)。

LLM基座模型:推理导向训练(如Sirius规划增强)和协作导向(如COPPER通信协议优化)。

领域特定优化:在专业场景落地

医疗诊断智能体可整合多模态数据(如影像、病历),例如 MDTeamGPT 模拟多学科会诊,通过反思讨论提升诊断准确率;分子发现智能体通过工具调用(如化学模拟软件)设计新药分子。

编程:代码优化智能体能自主调试、重构代码,例如 Self-Debugging 通过执行轨迹反馈修正错误;多智能体协作(如 「程序员 - 测试员」 分工)提升开发效率。

金融与法律:金融智能体可结合市场动态与政策调整分析模型,法律智能体能模拟法庭辩论,通过对抗式进化提升推理严谨性。

看完这些案例,你会发现自进化不是空想,而是已经在多个行业开花结果,正悄悄改变AI攻克专业难题的方式。

安全与评估:自进化的「护栏」与「体检」

自进化的强大,也意味着更高的不可控风险。论文指出,在高自治度的智能体中,安全、合规与可信评估必须是「内建」的,而非「附加」的。

例如,AgentHarm 等基准测试揭示了模型在多轮交互中被引导执行恶意任务的可能性;R-Judge等方法则利用智能体充当评估者,对其他智能体的行为进行批判性审查。

这不仅关系到技术本身的稳定性,更是未来AI大规模落地的社会底线。

从「能跑」

「跑得远、跑得好、还能自己升级」

自进化AI智能体的故事,才刚刚开始。虽然它们已经能在多个领域「上场打比赛」,但要实现真正的终身进化,还有不少硬骨头要啃。这些挑战可以用三个关键词概括:持久(Endure)、卓越(Excel)、进化(Evolve)

挑战一:持久运行的安全与合规

安全与对齐难题

现有优化方法更多关注「分数高不高」,而忽视了「会不会出事」。比如,模型在演化中可能出现隐私泄露、目标跑偏等风险,而现有法规(如 EU AI Act、GDPR)都是按「静态模型」写的,根本没考虑会自己变的系统。

稳定性隐患

奖励模型如果数据少、反馈噪声大,很容易导致智能体行为不稳定,甚至出现意料之外的错误。就像开车时方向盘太灵敏,一点点抖动就会偏航。

挑战二:性能不仅要高,还要能稳住

专业领域评测难

在生物医学、法律等领域,很难有统一、可靠的「标准答案」,这让模型优化缺少精准的反馈信号。

效率与效果的平衡

多智能体优化可以让结果更好,但计算成本、延迟和不稳定性也会飙升,必须找到性能与资源消耗的平衡点。

优化成果的可迁移性差

在一种大模型上调好的提示和架构,换个模型可能就失效了,这对大规模落地是个大障碍。

挑战三:真正的自主进化

多模态与空间推理不足

现实世界不仅有文字,还有图像、视频、传感器数据等,智能体要学会在这些信息中建立自己的「世界模型」,并具备时间和空间的推理能力。

工具的自主使用与创造

现在的智能体大多用的是「别人准备好的工具」,缺少自己发现、组合、甚至创造工具的能力。

未来方向

这些问题并非无解,它们也是自进化 AI 走向更高阶段的机会:

开放式自进化模拟环境

建立一个能「关起门来自己练」的虚拟世界,让智能体在其中反复试错、优化提示、记忆、工具和工作流。

工具的自适应使用与创造

从被动调用固定工具,升级为能主动选择、组合甚至创造新工具,并用反馈和强化学习不断打磨。

贴近真实场景的长期评测

不再只做一次性的「考试」,而是设计能持续跟踪智能体长期表现的评测标准。

性能–资源双目标优化

让多智能体系统在性能和延迟、成本、能耗之间找到最优平衡点。

面向行业的定制演化

针对科学、医疗、法律、教育等领域,结合专有知识、特定评测标准和法规要求进行定制化演化。

未来的AI智能体,不仅要能跑,还要跑得远、跑得好,并且能在跑的过程中学会换鞋、补能、升级引擎。

沿着MOP→MOA→MAO→MASE的进化路线,并以「三定律」为指南,这篇论文正在为这种「可持续、可自我进化」的智能体提供很好的技术路线图。

不同于以往智能体调研(聚焦静态架构),这份综述填补自进化空白,提供实用指南。

如果你想深入探索,可访问论文配套的GitHub仓库,获取最新研究资源与代码工具。

综述对比

有趣的是,就在这篇综述发布前不久,普林斯顿大学团队也推出了《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》。

两篇论文相隔仅十天,却在内容与视角上形成了鲜明互补:

框架差异

格拉斯哥团队提出了「系统输入—智能体系统—环境—优化器」的四环反馈回路,直观、可操作,更强调落地性。

普林斯顿团队则以「演化什么、何时演化、如何演化」三大维度进行概括,更加宏观,也更具哲学意味。

技术聚焦差异

格拉斯哥团队深入探讨了 LLM 与终身学习场景,细化到 Prompt、Memory、Tools、多智能体通信等具体技术层面。

普林斯顿团队则更多聚焦于长远愿景,标题本身也更偏哲学化,对工程细节的涉及较少。

深度与应用差异

格拉斯哥团队提供了生物医学、编程等领域的实战案例,并专设了评估、安全与合规的章节。

普林斯顿团队则更偏向趋势与远景蓝图,强调整体性的思考。

换言之,普林斯顿的综述更像一幅宏观地图,展示了「自进化智能体」可能的未来方向;而格拉斯哥的综述更像一套操作指南,体现出当下研究者如何将自进化智能体真正落地。两者相互呼应,共同勾勒出这一新兴领域的理论图景与实践路径。

参考资料:

https://arxiv.org/pdf/2508.07407


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁家的保护不是保护

谁家的保护不是保护

求实处
2025-08-24 22:05:03
上海825新政对楼市的五大影响

上海825新政对楼市的五大影响

同策研究院
2025-08-25 13:18:05
再见了,雅迪、爱玛!2500元买电动车,行内人更建议买这4个品牌

再见了,雅迪、爱玛!2500元买电动车,行内人更建议买这4个品牌

电动车的那些事儿
2025-08-25 07:35:05
不演了?日本前驻华大使说:看《南京照相馆》的都是中国的穷人…

不演了?日本前驻华大使说:看《南京照相馆》的都是中国的穷人…

翻开历史和现实
2025-08-24 09:52:39
20年我娶了村里的疯姑娘,结婚当天她悄悄对我说:我没疯,都是装的

20年我娶了村里的疯姑娘,结婚当天她悄悄对我说:我没疯,都是装的

古怪奇谈录
2025-08-09 17:44:15
爱德华兹谈2K能力值:很高兴打败了杜兰特,但我应该拿99

爱德华兹谈2K能力值:很高兴打败了杜兰特,但我应该拿99

雷速体育
2025-08-25 14:34:44
双色球2025097期,1000万花落深圳、宁夏,跨区小连号让921人无缘

双色球2025097期,1000万花落深圳、宁夏,跨区小连号让921人无缘

小李子体育
2025-08-25 14:11:10
把《资治通鉴》浓缩成5句话,悟透了,少走10年弯路

把《资治通鉴》浓缩成5句话,悟透了,少走10年弯路

金沛的国学笔记
2025-08-24 15:23:22
民主党用50年时间,将华盛顿治理成“犯罪之都”

民主党用50年时间,将华盛顿治理成“犯罪之都”

南文视界
2025-08-25 08:05:11
18岁男孩高考前吃蛇羹进ICU,医生看化验单脸色惨白:这根本不是蛇

18岁男孩高考前吃蛇羹进ICU,医生看化验单脸色惨白:这根本不是蛇

悬案解密档案
2025-08-21 10:10:00
怪不得特朗普不来看阅兵,中方公布重要消息,用70分钟让美看清楚差距

怪不得特朗普不来看阅兵,中方公布重要消息,用70分钟让美看清楚差距

林子说事
2025-08-23 15:00:43
20岁阿根廷新星炸裂:销魂摆脱+大师级直塞+飙世界波,太丝滑了

20岁阿根廷新星炸裂:销魂摆脱+大师级直塞+飙世界波,太丝滑了

侧身凌空斩
2025-08-25 07:25:44
与女友当众热吻+开香槟豪饮 瑞典赛莫雷加德夺冠今晚他是王子

与女友当众热吻+开香槟豪饮 瑞典赛莫雷加德夺冠今晚他是王子

劲爆体坛
2025-08-25 05:58:28
懒懒疑已搬出王思聪豪宅,眼睛红肿开播卖货,结果评论区大翻车

懒懒疑已搬出王思聪豪宅,眼睛红肿开播卖货,结果评论区大翻车

科学发掘
2025-08-25 12:04:44
铁了心要打垮中国?这次不是美国,普京却笑到了最后。

铁了心要打垮中国?这次不是美国,普京却笑到了最后。

南权先生
2025-08-25 09:34:31
俄罗斯曝光绝密文件,若与北约开战,预先打中国的这两个海上邻国

俄罗斯曝光绝密文件,若与北约开战,预先打中国的这两个海上邻国

蜉蝣说
2025-08-24 17:54:36
网友:后备箱男孩母亲收入很高,当年是被追求,离婚差点被分财产

网友:后备箱男孩母亲收入很高,当年是被追求,离婚差点被分财产

丫头舫
2025-07-19 09:54:34
“性交易”上瘾!为图刺激,参加三届奥运的她,成了头牌应召女郎

“性交易”上瘾!为图刺激,参加三届奥运的她,成了头牌应召女郎

云间娱乐
2025-08-19 10:56:16
横行三年的新冠消失了,却留下了几大奇怪现象,是好还是坏?

横行三年的新冠消失了,却留下了几大奇怪现象,是好还是坏?

艾米手工作品
2025-08-23 10:59:09
被曝与姚笛复合仅10天,高调谈婚姻的马伊琍,撕碎文章仅剩的体面

被曝与姚笛复合仅10天,高调谈婚姻的马伊琍,撕碎文章仅剩的体面

史书无明
2025-08-25 11:18:46
2025-08-25 15:28:50
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13319文章数 66137关注度
往期回顾 全部

科技要闻

英伟达再生变数?

头条要闻

女子收到"包养"邀约每月2万至5万动心 真相让她傻眼

头条要闻

女子收到"包养"邀约每月2万至5万动心 真相让她傻眼

体育要闻

一剑霜寒十四州 生子当如胡金秋

娱乐要闻

54岁胡兵体检像25岁:中年不油腻

财经要闻

送检八大品牌奶茶:五款检出反式脂肪酸

汽车要闻

燃油家轿标杆 全新速腾L体验均衡德味依旧

态度原创

亲子
家居
旅游
时尚
军事航空

亲子要闻

3岁女童放学就干呕,哭着说老师给''甜甜的'',医生检查后:快报警

家居要闻

流畅动线 舒适优雅设计

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

这些才是适合普通人的穿搭!衣服不买贵的重性价比,舒又得体

军事要闻

王爽成阅兵装备方队唯一女教练员 又被补充到受阅队伍

无障碍浏览 进入关怀版