比GPT-4更聪明:Claude 3 AI捕捉到研究人员正在测试它
知新了了
2024-03-07 16:17:59

原标题:比GPT-4更聪明:Claude 3 AI捕捉到研究人员正在测试它

研究这些下一代智能人工智能一定是一种奇怪的经历。随着Anthropic宣布了有史以来在一系列基准测试中最聪明的模型,研究人员回忆起,克劳德3(Claude 3)意识到它正在被评估时的一个令人不寒而栗的时刻。

你可能还记得,Anthropic是由一群Open AI高级团队成员于2021年创立的,他们因为不同意OpenAI与微软密切合作的决定而退出。该公司的Claude和Claude 2人工智能与GPT模型具有竞争力,但Anthropic和Claude都没有真正进入公众视线。

这种情况很可能随着克劳德3(Claude 3)而改变,因为Anthropic现在声称,在一系列多模态测试中已经超过了GPT-4和谷歌的Gemini 1.0模型,为“广泛的认知任务”设定了新的行业基准。

那么有什么不同呢?好吧,三款不同的Claude 3模型都将以20万令牌的上下文窗口启动,但它们都能够在输入“超过100万令牌”的情况下生成近乎即时的响应。

在此背景下,托尔斯泰的1200页、58万字的史诗《战争与和平》是一部内容丰富的大部头,但它可能被压缩成约75万个令牌。因此,Claude 3可以接受远不止一个《战争与和平》的输入数据,并在为您制定“近乎即时”的答案的同时,一次理解所有这些数据。

Anthropic表示,Claude 3不像之前的模型那样拒绝回答那些被认为接近安全和体面的问题,但另一方面,该团队表示,它也经过了精心的测试,很难破解。

它的设计很大程度上倾向于商业用户;Anthropic表示,它更擅长遵循“复杂的、多步骤的指令”,“尤其擅长坚持品牌声音和回应准则,开发用户可以信任的面向客户的体验。”它强大的视觉功能赋予了它理解和处理照片、图表、图形、流程图和技术图表的下一代能力。

以下是它创下人工智能行业新纪录的一些基准测试:

值得注意的是,Claude 3的零样本数学能力,远远超过了GPT-4的4-8次,它在HumanEval编码测试中的能力也非常出色。

人工智能行业的追随者会注意到,谷歌的Gemini 1.5和OpenAI的GPT-4 Turbo模型并没有被展示出来 —— 事实上,目前还没有关于这两个模型的等效基准数据,所以,虽然Claude 3是数据表之王,但这两个模型在现实世界中可能仍有优势。

现在应该非常清楚,OpenAI几乎肯定有GPT-5,也许还有更多的东西,完全训练并处于校准和测试的过程中。Sora的发布掩盖了Gemini 1.5的新闻周期,我们确信OpenAI已经准备好了其他重要的炸弹,随时准备在必要时投放。

从这个意义上说,OpenAI今天似乎没有发布任何东西,这一事实可能更多地说明了它认为Anthropic是一个真正的竞争对手,而不是谁拥有最聪明的模型。

尽管如此,Claude绝对是敏锐的 —— 对于公司用来评估其模型的各种测试来说,也许过于敏锐了。在“大海捞针”测试中,一个随机的句子被淹没在大量的信息中,然后被问一个与这个句子有关的问题,克劳德的回答似乎就像是转过身来,直视着研究人员。“我怀疑这个披萨配料的‘事实’可能是开玩笑的,或者是为了测试我是否在专心听讲。”

我们可能会预计这些事情会越来越频繁,因为关于现有和旧语言模型的大量信息现在是新模型培训的一部分。

确切地知道“自我意识”对从事人工智能工作的公司意味着什么,以及通用人工智能目前的定义是什么,当然会很有趣。因为在未来几年,我们似乎需要对这些概念进行一些非常明确的定义。或者几个月。见鬼,在这个空间里,也许是几周。

如果朋友们喜欢,敬请关注“知新了了”!

相关内容

热门资讯

Arm:客户近两年对AGI C... IT之家 5 月 9 日消息,Arm 在本周早些时候的 FY2026Q4 财报电话会议上表示,客户在...
专家解读|把握智能体发展机遇,... 2026年以来,OpenClaw广泛应用,在展现出智能体强大自主任务执行能力的同时,也暴露出智能体在...
蝉联冠军!祝贺安工大! 2026中国机器人大赛 暨RoboCup机器人世界杯中国赛 (RoboCup赛区) 近日在北京举行 ...
美国网络教育平台Canvas遭... 美国各地广泛使用的网络教育平台Canvas在7日遭遇网络攻击后服务一度中断,8日“已完全恢复在线并可...
经纬度:迎接AI智能体的“大航... 近日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》(以下简...