AI智能体可以代表用户浏览网页并完成任务的能力在过去几个月中得到显著改善,但为它们提供支持的模型大部分仍然是专有的。
周二,Allen人工智能研究所(Ai2)发布了MolmoWeb,这是一个新的开源视觉网络智能体,属于Ai2的Molmo 2模型家族的一部分。
新模型提供两种规模:40亿参数版本和80亿参数版本,这使得它们足够小,可以在本地运行。与Ai2的几乎所有模型一样,团队还公开了模型权重、训练数据、代码(即将发布)和评估工具。
与类似的智能体一样,这里的想法是构建一个能够在网络浏览器中执行任务的系统,使用与人类相同的界面。
智能体应该能够导航网站、填写表单、在购物网站上搜索产品,并检索信息。
虽然有许多像WebMCP这样的活跃努力,旨在让智能体更容易与各个网站交互,但像MolmoWeb这样的智能体系统接受任务并尝试通过查看网页截图、预测下一步行动和通过点击按钮、输入文本和滚动来操作浏览器来执行任务。这意味着智能体应该能够导航网站、填写表单、在购物网站上搜索产品,并检索信息。
让MolmoWeb在众多网络智能体中脱颖而出的不仅是其小尺寸,还有一个事实:Ai2并没有通过从专有的基于视觉的智能体进行蒸馏来训练模型。相反,团队写道,"数据来自仅使用文本的可访问性树智能体生成的合成轨迹和人类演示。"
这种方法在一些标准浏览器使用基准测试中取得了令人印象深刻的性能。例如,MolmoWeb的表现超过了OpenAI的GPT-4o(尽管版本较旧),后者依赖于带注释的截图和结构化页面数据。在开放权重模型中,MolmoWeb的40亿和80亿参数版本都超过了Fara-7B和GLM-4.1V-9B等竞争对手。
不过,大体而言,来自Anthropic、谷歌、OpenAI等公司的专有模型仍然轻松超越这些开放模型,但值得记住的是,Ai2使命的一部分并不一定是与这些模型竞争,而是为想要了解这些系统如何工作的研究人员提供替代方案。
Ai2的使命不一定是与Anthropic或OpenAI竞争,而是为研究人员提供替代方案。
正如团队指出的,"开源社区不仅缺乏模型,还缺乏构建竞争性替代方案所需的训练数据、基础设施和评估工具。这种差距限制了可重现性,减缓了研究进展,并使人们难以理解这些系统实际如何工作。在许多方面,今天的网络智能体就像Olmo之前的大语言模型一样——社区需要一个开放的基础来构建。"
MolmoWeb的训练集包括30,000个人类任务轨迹,Ai2将其描述为"迄今为止公开发布的最大人类网络任务执行数据集"。这包括跨越1,100多个网站的近600,000个单独子任务。
这是大量数据,但还不足以训练模型,因此团队还使用通过可访问性树操作网站的智能体生成了合成轨迹,这对这些智能体来说要容易得多,因为它们不必解释截图。
训练集还包括带有网站不同元素信息的带注释截图,以及超过220万个问答对,这些问答对来自推理任务,在这些任务中,模型回答了关于约400个网站截图的问题。
MolmoWeb现在可以在Hugging Face和GitHub上获得,同时提供所有训练数据和评估工具。
Q&A
Q1:MolmoWeb是什么?有什么特点?
A:MolmoWeb是Allen人工智能研究所发布的开源视觉网络智能体,属于Molmo 2模型家族。它提供40亿和80亿参数两种版本,足够小可以在本地运行。与其他网络智能体不同,它没有通过专有模型蒸馏训练,而是使用合成轨迹和人类演示数据训练。
Q2:MolmoWeb能做什么具体任务?
A:MolmoWeb能够在网络浏览器中执行各种任务,使用与人类相同的界面。它可以导航网站、填写表单、在购物网站上搜索产品、检索信息,通过查看网页截图、预测下一步行动,并通过点击按钮、输入文本和滚动来操作浏览器。
Q3:MolmoWeb的性能表现如何?
A:在标准浏览器使用基准测试中,MolmoWeb表现出色,超过了OpenAI的GPT-4o。在开放权重模型中,其40亿和80亿参数版本都超越了Fara-7B和GLM-4.1V-9B等竞争对手。不过专有模型仍然在整体性能上领先。