现代AI之父团队迎新成果:用图结构构建智能体,助力研发AI智能体
DeepTech深科技
2024-03-13 18:02:38

原标题:现代AI之父团队迎新成果:用图结构构建智能体,助力研发AI智能体

“2021 年上半年,我铤而走险决定放弃阿里的算法工程师 offer,全力申请 PhD。

幸运的是,这条路最终引领我至 Jürgen Schmidhuber 教授门下,他的谷歌学术引用超过 23 万次,被西方媒体誉为‘现代人工智能之父’,中文媒体则尊称他为‘LSTM 之父’。”诸葛鸣晨表示,他对于继续选择科研的路非常坚定。

图 | 诸葛鸣晨(来源:诸葛鸣晨)

他本科和硕士分别毕业于中国石油大学(华东)和中国地质大学(武汉)的计算机学院。

读研期间,他遇到了时任阿联酋起源研究院研究员的范登平博士、以及时任阿里巴巴高级算法专家高德宏博士,在他们的鼓励之下,他开始逐渐喜欢上科研。

并在硕士阶段以第一作者在顶会 CVPR(IEEE 国际计算机视觉与模式识别会议,IEEE Conference on Computer Vision and Pattern Recognition) 和 TPAMI(模式分析与机器智能 IEEE 汇刊,IEEE Transactions on Pattern Analysis and Machine Intelligence) 发表论文。

就读博士前,诸葛鸣晨分别在阿里巴巴、阿联酋起源人工智能研究院和微软实习。在这三段实习经历里,他主要围绕多模态预训练和大语言模型开展工作。

他目前的博士导师尤尔根·施密德胡伯(Jürgen Schmidhuber)目前在沙特阿卜杜拉国王科技大学(KAUST,King Abdullah University of Science & Technology)AI 中心担任教授。

Jürgen Schmidhuber 在神经网络、元学习、以及强化学习方面的工作,对当前 AI 领域的发展产生了深远影响。

值得一提的是,在 DeepMind 的早期头四号员工中,就有两位出自 Jürgen Schmidhuber 的实验室。

诸葛鸣晨说:“他是一名典型的德国学者,对任何事情非常严谨并且精益求精,能成为他的学生,不仅让我对 PhD 有了更深的理解和敬畏,也让我对未来充满了期待。”

2021 年末,从申请来到 KAUST 读博开始,诸葛鸣晨就将自己的课题定位“多模态智能体(Multimodal Intelligent Agent)”。

进入博士一年级之后,随着 ChatGPT 的问世他发现智能体的推理和规划变得更加容易,那么基于大语言模型的智能体很有可能将成为主流。

因此,从 2023 年 1 月份开始,他所在的 KAUST AI 中心联合瑞士人工智能实验室、英国牛津大学、美国哈佛大学、瑞士苏黎世联邦理工学院等高校团队,发布了名为《基于自然语言的心智社会中的心智风暴》(NLSOM,Mindstorms in Natural Language-based Societies of Mind,)论文。

(来源:arXiv)

在论文中,诸葛鸣晨和所在团队提出一个观点:所有形式的多模态智能体都能够利用一种通用语言(例如自然语言)——以模块化的方式进行头脑风暴,进而完成单一智能体无法完成的任务。

此外,他指出:“20 世纪,符号主义与神经网络学派之间的对立曾是众人津津乐道的话题。然而,现今我们终于看到了不同流派之间达成和解的希望。”

他继续指出,当下大型语言模型(LLM,Large Language Model)与智能体之间的互补关系实际呼应了神经网络早期先驱之一沃尔特·皮茨(Walter Pitts)的见解:“一伙人企图模拟神经系统,而另一伙人企图模拟心智,但殊途同归”。

另据悉,这篇论文的初始版本获得了 NeurIPS Ro-FoMo 研讨会的最佳论文奖。此外,诸葛鸣晨以及团队与一家国内公司 DeepWisdom 合作推出了 MetaGPT。

与此同时在这篇论文中,他们详细讨论了多智能体系统中实施标准操作流程(SOP,Standard Operating Procedures)的重要性:即多智能体协作时,改善通信时内容和格式是非常重要的。

在实验里他们发现 SOP 对于软件设计、编程题解答这一类具备严格逻辑的任务消除幻觉非常有帮助。

后来这个项目在 GitHub 上获得超过 34k 的星标,基于上述论文诸葛鸣晨等人也即将在人工智能顶级会议 ICLR2024 上进行口头报告(ICLR 的全称是 International Conference on Learning Representations,即国际表征学习大会)。

值得一提的是,在 ICLR2024 的 7262 篇投稿论文中,这篇论文的排名位于前 1.2%,是智能体领域的一篇高分论文。

他提到:“在短暂的狂欢之后,智能体领域的工作慢慢趋向于做纯工程问题。在早期,我们看到斯坦福的西部小镇论文(Generative Agents),它非常惊艳并且把一些逻辑梳理的很清楚。

同期也出现了 AutoGPT 这样的工作,让人们看到了智能体解决实际问题的巨大潜力。后来也出现了如 MetaGPT、AutoGen、ChatDev 等工作,它们共同推动了多智能体的进一步发展。但最近半年,在目前的智能体领域内,新发布的论文普遍缺乏创新性。”

一个具体的例子便是,研究者往往不再深入探讨智能体在学术上真正有潜力的方向,而是转向探索不同的应用。

大家实际上还是在围绕 OpenAI 的研究人员所提倡的“Agent = LLM + Memory + Planning + Tool Use……”这一套公式进行扩展。

尽管在技术上这是正确的探索方向。但是,这种趋势在某种程度上限制了我们的科研想象力。如果不及时反思这一问题,智能体领域的学术研究有可能变成工程问题的研究。

事实上,智能体、及其构建的概念,已经被学术界讨论了许多年。图灵奖得主马文·闵斯基(Marvin Lee Minsky)在 1986 年出版的《心智社会》中曾提出:智能的背后没有什么秘诀,智能的力量来自于我们的多样性,而非来自于任何单一的完美原则。

在马文·闵斯基的《心智社会》一书中,他强调智能是由多样化的模块化组件协作构建而成的。

(来源:资料图)

通过阅读《心智社会》这本书,以及基于诸葛鸣晨和团队的积累(参见《基于自然语言的心智社会中的心智风暴》一文),他和同事认为利用图来表示智能、智能体、以及智能体社会,是一种极其有效的方法。

这一方法的优点也是显而易见的。2023 年,在智能体的学术领域中,人们已经开始探索如何更好地优化智能体及其社会结构。

比如,许多研究尝试通过强化学习和优化算法来达成这一目的,但是尚未取得显著进展。

诸葛鸣晨表示:“智能体研究领域的工作引入图的思考,可以有效解决这一难题,它能够统一图理论、优化算法、强化学习以及提示技术的研究,从而能够开辟一个新的研究方向。”

此外,正如人类社会可以通过图来表示一样(社交媒体就是一个典型的例子),在智能体领域引入图表示法的优势也是非常直观的。

而凭借强大的推理性能,大语言模型常被用作智能体的“后端”。正如前文所述,2023 年,人们普遍遵循的构建智能体准则是“Agent = LLM + Memory + Planning + Tool Use”。

而现在,诸葛鸣晨和所在团队提出一种构建智能体的新型理解方式—— GPTSwarm。即通过以下对应关系,来重新定义智能体的构建:

1. 操作(Operation)↔节点(Node)

2. 智能体(Agent)↔由多节点构成的图(Graph of Nodes)

3. 蜂群(Swarm)↔复合图(Composite of Graphs)

有了这套定义方法,就能将所关注的问题转化为“图”的优化问题,包括:

a. 合作与通信(Collaboration and Communication)↔图之间的信息流动(Information Flow between Graphs)

b. 编排(Orchestration)↔复合图中的边缘连接(Edge Connections in the Composite Graph)

c. 优化(Optimization)↔节点或边缘的优化(Optimization of Nodes or Edges)

(来源:arXiv)

作为一种新型理解方式,GPTSwarm 通过将智能体构建的概念,映射到操作、智能体、蜂群(多智能体)与节点、节点图、复合图的对应关系中,从而能够重新定义智能体的架构。

这种方式也非常符合“心智社会”(SOM,Society of Mind)理念。对于 GPTSwarm 来说,它要探索的是如何从简单模块化组件中,涌现出更高级别的智能。

这种方法解决了组件集成的核心问题,并通过优化代理的通信机制和协作机制,实现了代理之间的自我改进和任务效率的显著提升。

随着系统规模的扩大,这种集成和优化也将变得尤为重要,从而能为构建复杂智能体系、以及实现心智社会理想提供一条创新路径。

可以说,通过“图结构”来构建智能体的好处,在 GPTSwarm 框架中得到了充分体现,并能在以下几个应用领域展现出独特优势:

其一,可用于动态任务适应系统。

GPTSwarm 利用可优化的图结构,可以根据任务需求进行动态调整,因此非常适合快速变化的学术环境和工业环境。

其二,可用于代理编排与路由。

利用 OpenAI 的 GPT Mention 机制,GPTSwarm 展示了基于图的智能体构建的优势,使得代理之间的边连接优化成为可能,并能为特定任务提供精确的路由。

其三,可用于大规模的代理协作。

凭借出色的灵活性、以及易于表示的特点,图结构能够优化数百万千万级别的智能体协作、以及优化智能体之间的互动,从而为有效处理复杂任务打下基础。

基于这些应用领域的探索显示:使用图结构来构建智能体,不仅能提高系统的灵活性和动态性,还能提升智能体之间的协作效率和任务处理能力,从而能为智能系统的发展提供了新视角和新方法。

日前,相关论文以《智能体即可优化的图》(Language Agents as Optimizable Graphs)为题发在 arXiv。

诸葛鸣晨是第一作者,尤尔根·施密杜伯(Jürgen Schmidhuber)担任通讯作者。

图 | 相关论文(来源:arXiv)

另据悉,诸葛鸣晨的导师 Jürgen Schmidhuber 教授曾在此前一篇论文中提到:要把当前的框架扩展到强化学习,探索如何在 NLSOM 成员中分配奖励,进而利用神经经济学的概念来设计奖励传递。

进一步地,Jürgen Schmidhuber 引入了一种将 NLSOM 成员视为进行货币交易的“智能体经济体系”(EOM,Economy of Mind),探讨了如何通过货币编码奖励、以及在 EOM 内部成员之间进行服务交易的可能性。

而这将涉及到使用共享货币,在成员之间分配服务奖励。未来,假如能将这些经济体系整合进入现实世界经济,将为研究经济规律和社会科学开辟新的研究方向。

(来源:资料图)

总的来说,GPTSwarm 为智能体铺好了一条道路。诸葛鸣晨表示:“未来,智能体一定会遍布于全社会。因此,我们会尝试通过扩大智能体规模,从而引入更好的优化算法,以便在更多的应用上发挥 GPTSwarm 的价值。

我和同样来自 KAUST AI 中心同事的王文一、Dmitrii Khizbullin 等人会继续尽绵薄之力推动这一领域的发展。

并且,我认为 2024 年所有多智能体的工作都值得用 Graph(图)来重新塑造一遍。它带来的潜力和价值是非常直观的,非常期待 AutoGen、CAMEL、ChatDev、DsPy, LangGraph、MetaGPT 等一系列优秀的开源框架能共同推动这一思考。”

参考资料:

https://gptswarm.org

https://arxiv.org/abs/2402.16823

https://github.com/metauto-ai/gptswarm

https://arxiv.org/abs/2305.17066

https://arxiv.org/abs/2308.00352

运营/排版:何晨龙

相关内容

热门资讯

分享房卡“微信拼三张房卡如何卖... 您好!炸金花链接房卡可以通过以下几种方式购买:打开微信添加客服【66336574】,微信渠道:微信游...
分享房卡“斗牛房间怎么买房卡/... 您好!炸金花链接房卡可以通过以下几种方式购买:打开微信添加客服【71319951】,微信渠道:微信游...
分享房卡“微信斗牛房卡哪里买/... 您好!炸金花链接房卡可以通过以下几种方式购买:打开微信添加客服【8488009】,微信渠道:微信游戏...
分享房卡“微信金花如何开自建房... 您好!牛牛链接房卡可以通过以下几种方式购买:打开微信添加客服【55051770】,微信渠道:微信游戏...
分享房卡“炸金花怎样创建房间/... 您好!拼三张房卡链接可以通过以下几种方式购买:打开微信添加客服【33903369】, 微信渠道:微信...