此前麻省理工科技评论曾预测,继 2023 年生成图像、2024 年生成视频之后,2025 年将是生成式虚拟世界的元年。从去年 DeepMind 的 Genie 系列、人工智能创业公司 Decart 和 Etched 的《我的世界》即时生成项目,到 ImageNet 创始人李飞飞参与创立的 World Labs,各路玩家都在推进这一领域的发展。
如今,科技巨头微软也正式加入这一竞争。2 月 19 日,微软宣布推出游戏领域新一代生成式 AI 模型 Muse,相关成果刊登在 Nature 上。
图丨相关论文(来源:Nature)
Muse 的核心是一个名为“世界与人类行为模型”(World and Human Action Model, WHAM)的生成式架构。该模型通过观察《Bleeding Edge》游戏中超过 7 年的人类玩家数据进行学习,具体包括:约 50 万场匿名化的游戏对局录像,总计 27.89TB(相当于超过 7 年的持续游戏时间)。
这些数据被降采样至每秒 10 帧,最终得到约 14 亿帧训练样本。研究团队还专门筛选出了一个较小的数据集,仅包含“Skygarden”地图上约 1 年的游戏数据(3.1 亿帧),用于快速实验和验证。
在这些数据的基础上,Muse 形成了对 3D 空间中物体、角色和环境交互方式的“实践性理解”。包括游戏物理和游戏如何对玩家的控制器动作做出反应。这使得模型能够创造出由 AI 渲染的一致且多样的游戏玩法,展示了朝着能够赋能游戏创作者的生成式 AI 模型迈出的重要一步。
从技术架构来看,该模型采用了目前主流的 Transformer 架构,包含 16 亿参数,每次可处理 1 秒长度(约 10 帧)的游戏画面和控制器输入序列。在数据编码方面,模型使用了 VQGAN(Vector Quantized Generative Adversarial Network)将每帧 300×180 分辨率的游戏画面压缩为 540 个离散标记,词表大小为 16,384。对于 Xbox 手柄的输入,模型将左右摇杆的 x、y 坐标离散化为 11 个区间,同时处理按键的离散状态。
图丨将人类游戏行为表述为离散 token 的序列,在图像观察和控制器操作之间交替(来源:Nature)
WHAM 的训练采用了两阶段策略。首先是 VQGAN 编码器/解码器的训练,使用重建损失和感知损失来保证压缩后的图像质量,并通过 GAN 损失来提升生成效果。第二阶段是 Transformer 的因果预测训练,使用交叉熵损失来预测下一个标记。最大规模的模型使用了 AdamW 优化器,学习率在训练过程中从 0.0008 按余弦退火到 0.00008,β1=0.9,β2=0.95,权重衰减为 0.1。
Muse 的突出性能表现在三个方面:一致性(Consistency)、多样性 (Diversity)和持久性(Persistency)。
具体来说,一致性使用 Fréchet 视频距离衡量,通过比较模型生成的 10 秒视频序列与真实游戏录像的差异来评估。在实验中,给定 1 秒的游戏画面和后续 10 秒的控制器输入,要求模型生成相应的游戏画面。结果显示视频距离随着计算量的增加而持续改善,16 亿参数的模型甚至能生成长达 2 分钟的连贯序列。
图丨三种模型能力表现(来源:Nature)
多样性评估采用 Wasserstein 距离,比较模型生成的控制器操作序列与真实玩家行为的分布差异。实验从 1024 段游戏序列中各采样 10,000 个操作进行对比,重复 10 次取平均。结果表明,增大动作预测损失的权重能显著改善多样性表现。在定性分析中,模型展现出了行为多样性(如不同的移动路线选择)和视觉多样性(如角色外观变化)。
持久性测试则关注模型对用户编辑的保持能力。研究人员在游戏场景中手动添加了三类元素:游戏物品(能量电池)、其他玩家角色和地图元素(垂直跳板),分别放置在 8 个新位置。结果显示,当输入 5 帧或以上的编辑画面时,模型能以 85% 以上的成功率在后续生成的画面中保持这些编辑内容。
微软表示,Muse 的应用场景非常广泛。首先是游戏原型开发,开发者可以快速生成和测试不同的游戏场景和玩法。其次是经典游戏的现代化改造,模型可以通过学习老游戏的机制,帮助将其优化适配到现代硬件平台上。此外,该技术还可能应用于游戏资产生成、NPC 行为模拟等领域。
图丨 Muse 效果演示(来源:Microsoft)
微软游戏 AI 部门副总裁 Fatima Kardar 表示:“想象一下,那些因为硬件更迭而失传的经典游戏,有朝一日可以在任何搭载 Xbox 的屏幕上重现,这对我们来说是一个激动人心的可能性。”
据悉,在开发 Muse 的过程中,微软团队访谈了来自全球的 27 位游戏创作者,以确保研究方向符合行业实际需求。
但似乎,开发者们并不像微软宣称的那样认可这项技术。甚至可以说,Muse 的发布在开发者群体中引发了强烈的反弹。
资深游戏开发者、The Outsiders 工作室创始人 David Goldfarb 在社交媒体上直言:“狗屁玩意。”在接受 WIRED 采访时,他表示不认为生成式 AI 对游戏行业有益,“因为推广这项技术的人是为了减少资本支出,无论他们是否有意,实际上都在贬低和剥夺游戏开发者和艺术家们数百万年的美学积累。”
图丨相关推文(来源:X)
“最根本的问题是我们正在失去工艺。”Goldfarb 说,“当我们依赖这些技术时,实际上是在赋权给那些拥有这些工具却根本不关心它们如何重塑我们生活的人。”
一位要求匿名的 AAA 游戏工作室开发者指出:“这是 Xbox 人才流失但又在生成式 AI 上投入巨资的典型案例。他们看不到没人想要这个。他们根本不在乎没人想要这个... 由于行业动荡,所有人都害怕因为反对 AI 而失去工作,所以内部讨论都很安静。”
这种担忧并非空穴来风。据 WIRED 此前的调查报道,在游戏行业经历大规模裁员的同时,AI 正在逐步取代人工开发者的工作。仅 2023 年至今,游戏行业就已裁员数千人,这一趋势在 2025 年仍在持续。最新的例子是 Unity 引擎开发商刚刚宣布新一轮裁员计划。
图丨相关新闻(来源:WIRED)
另一位匿名开发者表示:“令人不适的是,在游戏行业现状下,我不得不保持匿名。因为我们仍需要向他们申请 Game Pass 合作,署名批评会降低我的机会。在我看来,这个模型的真正目标不是游戏开发者,而是股东——向他们展示微软在 AI 领域的全面投入,尽管 AI 还没有交付出任何人真正想要的产品。”
对于 AI 在游戏开发中的应用,业内观点也并非完全否定。Creative Assembly 的开发总监 Marc Burrage 承认,在原型设计阶段,也就是开发者创建初步版本以完善想法的阶段,AI 确实可能提供帮助。但他强调:“原型设计既重视过程也重视结果,你必须亲历这个过程才能获得所有的学习。快速原型设计是一项无法简单绕过的宝贵技能,否则你就不会做好充分准备。”
Kardar 在这项技术的发布公告中写道:“我们认为通过合作和负责任的方式,引导这些生成式 AI 突破支持我们的行业和游戏创作社区非常重要。”但从开发者们的反应来看,要说服他们接受这项技术,微软还有很长的路要走。
这场争议折射出的实际上是游戏行业一个更深层的问题:随着 AI 技术在创意产业的渗透,如何在提升效率与保护创作者利益之间取得平衡?在游戏这样高度依赖人类创造力的领域,AI 究竟应该扮演什么样的角色?这些问题的答案,可能将决定游戏行业的未来发展方向。
参考资料:
1.https://www.nature.com/articles/s41586-025-08600-3
2.https://www.wired.com/story/xbox-muse-generative-ai-developers-say-nobody-will-want-this/
3.https://www.wired.com/story/ai-is-already-taking-jobs-in-the-video-game-industry/#:~:text=A%20WIRED%20investigation%20finds%20that,generative%20AI%20for%20game%20development.&text=When%20Noah%20saw%20the%20email%2C%20a%20wave%20of%20anxiety%20hit.
运营/排版:何晨龙