AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
创始人
2024-11-15 14:18:54
0

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

测评大模型Agent能力,从未如此直观。

新旧两版Claude 3.5 Sonnet在 《我的世界》里PK盖楼,差距不要太明显,引来大量围观。

如果让AI不断迭代,甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

作者 adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者 Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。

他甚至愿意 提供资金,把这个项目扩展成完整的评测。

总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。

比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。

最终在 人类喜好评估(2000+网友投票 中,Sonnet 3.6小赢了一手创意性。

如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。

照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了,竞技场模式开发中

大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。

而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

网友Mckay Wrigley制作了 视频教程,在15分钟内就可以使用开源代码设置好测试环境。 (地址在文末获取)

使用 mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。

目前,MC Bench开源项目组打算进一步完善,做成 类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。

与此同时,更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。

o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……

小模型难以规划复杂的建筑,但理解和还原简单指令方面, gemini-1.5-flash胜过gpt-4o-mini

让开源大模型 Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。

整体看下来,最有意思的或许还是这个:

让o1-preview自由发挥,随便盖一个酷的东西。

AI选择搭了一个机器人形象,并拼出GPT三个字母。

作者透露,接下来会继续测试一众中等大小开源模型。

目前初步结果,阿里Qwen 2.5-14B表现不错。

感兴趣的朋友可以玩起来了。

视频教程:

开源代码:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator

参考链接:

报名最后一天!

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名,评选从 企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月 MEET2025智能未来大会 公布,期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我,记得标星哦~

相关内容

热门资讯

XBOX玩家遭游戏Bug恶意“... 2024-11-15 12:00:53 作者:姚立伟 昨天晚上,许多Xbox游戏玩家遇到了一个令...
4399豪掷6亿元重金广州买地... 快科技11月15日消息,据媒体报道,老牌游戏企业4399近日以6.03亿元成功竞得广州国际金融城东区...
《消逝的光芒2》PS5 Pro... 开发商Techland公布了《消逝的光芒2》PS5 Pro补丁的详细信息,该补丁可以显著增强所有四种...
《午夜之南》游戏时长为15-2... 近日《午夜之南》总监Jasmin Roy和负责人Guillaume Provost透露,该作游戏时长...
黑曜石《宣誓》系统配置要求公布... 黑曜石娱乐已经公布了其即将推出的动作 RPG 游戏《宣誓》的官方 PC 系统要求。《宣誓》将是另一款...
140款游戏遍布学校操场! 南... 滚铁环、抽陀螺、拍纸炮、投壶、射箭……11月14日,南京江宁滨江外国语学校的校园格外欢乐,一年一度的...
AI在《我的世界》PK盖楼,新... 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 测评大模型Agent能力,从未如此直观。 新旧...
大行评级|瑞银:网易第三季核心... 来源:港股那点事 格隆汇11月15日|瑞银发表报告,称网易第三季盈利胜预期,核心游戏业务收入超出预期...
原创 老... 近日,因为前冠军辅助宝蓝开地图炮怒喷全LPL教练水平不行的言论,在全网范围引起了不少轰动。让人没想到...
5元秒Steam平史低《战锤:... 2024-11-15 02:01:14 作者:姚立伟 《战锤:末世鼠疫2》在Steam上开启了促...
原创 老... 最近关于老头杯的话题很多,大家也看到了,虽然老头杯并没有多大的含金量,但是老头杯却能引起大量网友的热...
14282在线玩家!史克威尔艾... 2024-11-15 08:01:30 作者:姚立伟 《勇者斗恶龙3:HD-2D重制版》于近日在...
单个版号最高奖励10万元!又一... 来源:游戏陀螺 天地软件园昨天在建园20周年之际,聚焦高潜力科创“未来场”,推出一系列企业扶持政策,...
助力体育赛事方搭建社交资产矩阵... 来源:互金观察站 11月14日,2024中国力量·竞燃之夜体育电竞创新论坛在北京举行,来自体育、电竞...
终于……终于可以暴打狗策划了 是兄弟就和我一起暴打策划! 从SLG游戏诞生开始,策划和玩家的关系一直就没有和谐过,一直在“相爱...
游戏板块盘中走强,顺网科技领涨... 11月15日,游戏板块盘中上涨1.84%,顺网科技领涨5.49%,汤姆猫涨超5%,名臣健康、完美世界...
苹果即将上线Apple Arc... 2024-11-15 09:21:01 作者:姚立伟 苹果刚刚公布了将于12月和明年1月登陆其A...
《魔农传记》:种田?宝可梦?半... 文:干货游戏鉴赏组—林静言 要如何概括《魔农传记》这款游戏呢?带有种田要素的宝可梦?妖精的尾巴精神...
三角洲行动,击碎畅销榜的权威 文 | 游戏价值论 11月13日,腾讯发布Q3财报,网络游戏业务收入518亿元,同比增长12.6%...