今天分享的是:人工智能专题:超越ChatGPT的AI智能体(英文)
报告共计:82页
本文围绕超越ChatGPT的AI智能体展开,探讨模型自我改进、树搜索提升模型能力以及AI智能体自我改进等方面。开篇引用行业大佬观点强调AI智能体的重要性,同时指出当前智能体存在的问题。AI智能体涉及感知、规划、推理、反思和行动等环节,其部署有研究、拓展、创新等阶段和不同层级。在模型自我改进上,以往研究表明大语言模型(LLMs)可自我改进,但基于提示的自我改进和简单蒸馏方法对小模型无效,TriPosT方法通过将自我改进视为任务,借助大模型或Python脚本作为编辑模型,收集小模型与大模型的交互记录,经数据后处理和加权监督微调训练小模型,实验证明该方法能提升模型性能,但也存在依赖强编辑大模型监督等局限 。通过树搜索提升模型能力方面,许多对话任务类似决策过程,借鉴国际象棋中的前瞻搜索,利用大语言模型进行基于提示的蒙特卡洛树搜索(MCTS)可增强模型决策能力,在说服任务实验中,GDP-Zero相比基础大语言模型表现更优,不过该方法在对话任务之外的拓展及将改进行为回传训练模型方面有待探索。针对视觉语言模型(VLM)在计算机任务上的挑战,引入R-MCTS方法,通过树搜索寻找最佳轨迹并进行对比自反思来提升性能,在VisualWebArena和OSWorld基准测试中表现出色,探索性学习则能让大语言模型在训练时从R-MCTS树中学习,展现计算缩放特性。最后介绍Arklex这一以智能体为核心的组织框架,具备混合控制、任务组合、人类干预和持续学习等功能,与其他框架相比更智能且可控 。
以下为报告节选内容