来源:至顶网
周二下午,Anthropic 在 Twitch 上启动了"Claude 玩宝可梦"直播,展示其最新的 AI 模型 Claude 3.7 Sonnet 游玩《宝可梦红版》的过程。这成为了一个引人入胜的实验,展现了当今 AI 技术的能力以及人们对此的反应。
AI 研究人员曾使用各种视频游戏来测试新模型,从《街头霸王》到《你画我猜》,但这往往更多是为了娱乐而非实用。不过,Anthropic 表示,宝可梦proved成为了 Claude 3.7 Sonnet 的有效测试基准,这个模型能够有效地"思考"游戏中的各种谜题。
与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似,Claude 3.7 Sonnet 能够通过"推理"解决复杂挑战,比如玩一款专为儿童设计的电子游戏。虽然其前身 Claude 3.5 Sonnet 在游戏开始时就失败了——无法走出真新镇的玩家家门,但 Claude 3.7 Sonnet 已经成功获得了三个道馆徽章。
然而,新版 Claude 仍然会遇到困难。在 Twitch 直播数小时后,模型被一堵岩石墙挡住了去路,无论如何都无法穿过。一位 Twitch 用户这样总结道:"谁会赢,是投入了数千小时编程的 AI,还是一堵石墙?"最终,Claude 意识到可以绕过这堵墙。
虽然看着 Claude 像呆呆兽一样缓慢地探索《宝可梦红版》,每一步都要深思熟虑,确实令人有些着急。但这个过程又十分引人入胜。直播画面左侧显示着 Claude 的"思考过程",右侧则是实时游戏画面。
在某个时刻,Claude 试图在大木博士的实验室里找到他,但因为场景中有其他 NPC 而感到困惑。"我注意到在我下方出现了一个新角色——一个黑发穿白大褂的角色,位于坐标 (2, 10),"Claude 写道,"这可能是大木博士!让我下去和他谈谈。"随后,Claude 错误地与一个之前已经交谈过多次的 NPC 对话,而不是博士。Twitch 聊天室里的上千名观众中,有些人开始变得焦躁。但那些观看时间较长的观众则显得不那么担心。
"大家冷静,"一位观众在聊天室写道,"在此之前我们已经进出大木博士的实验室十次才弄明白该怎么继续。"
对资深 Twitch 用户来说,Anthropic 的这次直播格式可能会唤起怀念。十多年前,数百万人曾在一个名为"Twitch 玩宝可梦"的首创性在线社交实验中共同游玩《宝可梦红版》。每个用户都可以通过 Twitch 聊天来控制角色,这自然导致了混乱的游戏过程。
一些 AI 研究人员表示"Twitch 玩宝可梦"启发了他们的工作。2023 年 10 月,西雅图软件工程师 Peter Whidden 发布了一段 YouTube 视频,详细介绍他如何训练强化学习算法来玩宝可梦。他的 AI 花了超过 50,000 小时才学会如何成功游玩,其中一个挑战是 AI 更喜欢欣赏像素化的游戏场景,而不是实际玩游戏。
像 Whidden 和 Anthropic 这样的 AI 驱动的"Twitch 玩宝可梦"重现虽然很有趣,但也让人感到些许惆怅。原版直播之所以成为 Twitch 历史上的重要时刻,是因为它以一种意想不到的方式将人们联系在一起。大家都是同一个团队,共同努力让游戏角色停止原地打转,真正推进游戏进程。
到了 2025 年,我们似乎不再是队友,而是成了旁观者,看着 AI 模型试图玩一个我们很多人在五岁时就已经掌握的游戏。这是一个由 AI 引发的缩影,反映了一个更大的趋势:我们的在线体验正从共享的群体活动转变为更加孤独的个人行为。