OpenAI发布文生视频模型：可在单个生成视频创建多镜头_资讯

南方都市报

2024-02-16 21:59:27

当地时间2月15日，OpenAI官网发布首个文生视频模型Sora，能根据文字指令创建逼真而富有想象力的场景，生成长达一分钟的视频。南都记者了解到，OpenAI正与red teamers合作，他们将对模型进行对抗性测试。视觉艺术家、设计师和电影制片人等也被允许访问Sora并提供反馈意见。

视频demo截图。

在Sora的技术报告中，OpenAI称其为“作为世界模拟器的视频生成模型”。OpenAI称，他们探索了在视频数据上对生成模型进行大规模训练的方法。目前其最大的模型Sora能够生成一分钟的高清视频。“研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。”

据介绍，Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。该模型不仅能理解用户在提示中提出的要求，还能理解这些事物在物理世界中是如何存在的。Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。

在Sora相关介绍页面有48个视频demo，并配有对应的提示词。OpenAI称，该页所有视频均由Sora直接生成，未经修改。

OpenAI同时指出，当前的模型还存在弱点。它可能难以准确模拟复杂场景中的物理现象，也可能无法理解具体的因果关系，还可能混淆提示中的空间细节。在精确描述随着时间推移而发生的事件方面，该模型也可能存在困难。

在安全性方面，OpenAI称，他们正与red teamers（错误信息、仇恨内容和偏见等领域的专家）合作，后者将对模型进行对抗性测试。OpenAI还在开发有助于检测误导性内容的工具，例如检测分类器，它可以分辨出视频是否由Sora生成。

南都记者了解到，目前，red teamers可以使用Sora评估关键领域的危害或风险。一些视觉艺术家、设计师和电影制片人也可以访问并反馈意见，OpenAI由此可以了解如何改进模型，使其为创意专业人士提供有利帮助。

OpenAI称，将尽早分享研究进展，以便开始与其他人员合作并获得反馈，同时让公众了解人工智能的发展前景。

Sora的发布引发了业内广泛讨论。有人工智能专家和分析师表示，Sora视频的长度和质量超出了迄今为止所见的水平。伊利诺伊大学厄巴纳-香槟分校信息科学教授Ted Underwood称：“我没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。”

但牛津互联网研究所客座政策研究员Mutale Nkonde担心，这些工具可能会嵌入社会偏见，对人们的生活产生影响，并能将仇恨或令人痛心的现实事件通过文字描述变成逼真的镜头。

采写：南都见习记者农诗祺