“文生视频”模型Sora来了 为何我们总被震撼?
金羊网
2024-02-24 20:40:23

原标题:“文生视频”模型Sora来了 为何我们总被震撼?

羊城晚报全媒体记者 李钢

近几日,科技圈里最热门的肯定是OpenAI新发布的文生视频模型Sora。

几乎在同时,国内也有某些科技公司推出了所谓的国产版Sora,宣传文案中也号称可以通过文字指令生成真实且自然流畅的视频。但当用户下载打开,映入眼帘的是付费页面。可笑的是,所谓国产版Sora使用的示范视频,直接来自OpenAI的案例——第一时间割韭菜,无所不用其极。

这种让人哭笑不得的反差,不禁让人喟叹:为什么我们总是被AI先进技术所震撼?

Sora不单是一个爆炸性技术。早在2016年,OpenAI就曾明确提出,生成式模型是让计算机理解世界最有潜力的方向,并且引用了物理学家费曼说的话,“我创作不出来的,就是我没有理解的”。

八年后,Sora不仅能够根据文字指令创造出既逼真又充满想象力的场景,还能生成长达1分钟的一镜到底的视频,而且,视频中的人物、背景等都能达到惊人的一致性,各种镜头随意切换。

Sora显然是奔着“世界模型”而去的。OpenAI发布的Sora研究报告也以“视频生成模型成为世界模拟器”为题。

就在OpenAI思考如何让计算机理解世界、掌握物理规律的同时,我们的业界在做些什么?

国内的某些科技大佬曾经在讨论中认为,是否需要让大模型理解世界并不太重要,能用就行,别人如果做出来了,那就照搬照抄套个壳子,这样省事,可以少走不少弯路。

所以,你就可以明白,为什么2022年年底OpenAI推出ChatGPT之后,突然之间,国内的各个厂商仿佛开了窍似的,冒出了“百模大战”甚至“千模大战”。

这里面的差距恐怕并不只是在技术层面,而是存在于思维、眼光,甚至哲学思辨力等形而上的层面上。

这种认知层面上的差距,更让人担心。

这让我想起了另外一个曾经在科技圈热议的话题:特斯拉为什么不用激光雷达?

在一众对无人驾驶趋之若鹜的汽车厂商中,特斯拉显得特立独行,不仅不用激光雷达,CEO马斯克甚至公开说,用激光雷达非常愚蠢。

外界对此的解释往往聚焦在视觉AI与激光雷达的技术特点以及成本的差异上。这种解释确实提供了一种大众可以理解的视角。但真相是,马斯克根本不是在造车。甚至可以说,特斯拉最没有价值的属性,就是作为一种交通工具的那部分。

在马斯克眼中,特斯拉就是一台智能终端,会看、会听、会思考、会交流。当然,它还附带了四个轮子,可以带着你到处遛弯。他想得很明白,视觉技术在未来将拥有着远比激光雷达多得多的应用场景。

每一辆特斯拉汽车在马斯克看来其实都是一个视觉数据源,汇集、传递、归纳关于这个真实世界的种种数据。无法想象,这么些年下来,经过全球几百万辆特斯拉汽车的不间断运行,特斯拉所掌握的视觉数据库有多庞大。在如此庞大的视觉数据投喂之下,或许某一天,特斯拉会突然宣布,特斯拉人工智能网络将会拥有颠覆性的能力。

我们不知道OpenAI或者马斯克的口袋里还有哪些好东西,但是我们知道,如果我们没法在思维和认知层面上有所突破,我们只会一次又一次地被震撼。

正如当讨论人形机器人的时候,我们在想,它如何成为工厂的助手和家庭的保姆。马斯克却说,让它帮我们生孩子吧——你不得不承认,这个“脑洞”的想象力更大。

相关内容

热门资讯

RNG回归LPL是假消息,系故... 前言:在LPL赛区发展的历史长河中,如果让你选出你最喜爱的一支战队,你脑海里首先浮现的是谁的身影呢?...
全球同步开服!天使之恋 Onl... 玩手游网(www.wanshouyou.net)2026年06月24日讯:由宇峻奥汀推出的可爱冒险M...
腾讯疯狂发力,网易硕果仅存!2... 作为国内游戏业界的领头羊,腾讯与网易一直都备受玩家的关注。如今2026年已经过半,在过去的半年时间里...
《合金装备2》源代码泄露后续:... IT之家 6 月 24 日消息,今年早些时候,《合金装备 2:自由之子》的源代码遭到泄露,此时距离这...
不安全指令,一拒了之?TRIA... 新智元报道 【新智元导读】TRIAD是为AI智能体设计的一种新型安全框架,通过三类决策(继续、更新...