谁会为它买单?
当主播在直播间讲解冲锋衣时,她可以瞬移般转场到户外、雪山、漫天风雪中,展示冲锋衣的使用场景;当主播在在直播间卖连衣裙时,则可以自然地走进不同城市街头咖啡馆,展示日常场景中的穿着效果……
这不是魔法,也不是电影特效,而是文生视频模型与电商直播的结合。
XR创业者谢明炫认为,Sora展示了一种实时生成数字内容和虚拟世界的可能性,这让虚拟空间会成为新一代的大众媒介,取代短视频平台。
元宇宙的难点在于数字内容的生产效率太低——先要3D建模、贴图,再到游戏引擎中去制作,过程复杂,门槛过高。Sora的机制则是一种全新渲染引擎的可能性,以后的内容制作方式可以基于提示词创建3D内容。基于Sora,数字内容的生产中,脚本是自然语言,而不是编程语言,大幅降低数字世界的门槛,每个人都可以去很快速的去建造一个数字世界。
至于Sora自身的发展方式,大多从业者的共识还是,Sora还会被塞到大语言模型GPT-5中,形成类似谷歌Videopoet的产品形态。“理论上Sora应该是放到上下文里面去,基于更长的上下文去做理解推理、生成和交互。语言模型最适合做基础,也最适合做各个模型之间的大一统,放到语言模型中才能更好和人交互。”张红春总结。
文字生成领域没有太成熟的商业模式,以至于Open AI也不确定GPT生成的文字应该如何定价。但是视频生成有非常成熟的商业模式,一个短视频能卖多少钱,一部电影/电视剧多少钱,都有对应标准。“Sora开放后,如果测评好,千亿美元收入是可以的。按照市销率几十倍来估算,很容易做到万亿市值,我觉得这个事情并不难。”司马华鹏表示。
“视频生成这个路径会给OpenAI会带来非常大的收入,我预计会超过千亿美元。”司马华鹏补充。
回到Sora背后的Open AI,为何它的模型能够一枝独秀?
有国内AI企业高管告诉亿邦动力,2019年他试图挖一个OpenAI员工。沟通中他介绍,我们的愿景是帮助人类从碳基走向硅基。OpenAI员工回复,我们的愿景是创造上帝。
03
技术路线见顶
AI之王的盛世隐忧?
另一方面,相当数量的AI从业者看到Sora背后的技术隐忧。
OpenA遵循“大数据、大模型、大算力”的技术路线,把Scale当作核心价值观之一:我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时,就扩大规模,Sora就是这一思路的代表。
但王华民认为,很多从业者都看到了这一技术路径的上限,震惊于对Sora一边倒的赞美。
OpenAI的能力突破来自于率先使用了前人没用过的数据,数据量可以很快上涨。但大模型需要的数据量呈指数级增长,而全球的高质量语言数据预计将于2024年用尽。“我们对数据量太过乐观,全球数据上限会比算力上限更早到来。”王华民分析。
数据量达到上限,暴力美学的技术路线也将达到上限,而机器合成的数据会让模型效果变差,我们的不少访谈对象都认同这一观点。
Meta首席科学家杨立昆也认为,随着数据量见顶,模型性能会趋于饱和,我们需要其他维度的突破,要依靠科学研究,而不是追求数据量的增长。“现阶段没有这种技术能让AI像婴儿观察世界一样来学习。我们正在研究这个问题,希望得到突破。”
2023年,杨立昆提出一个新构思,即根据大脑运行机制,建立一个端到端的仿生架构,包含6个核心模块:配置器、感知模块、世界模型、成本模块、参与者模块和短期记忆模块,他基于该理念设计出V-JEPA“非生成模型”。
这至少代表暴力美学路径之外的另一条路径。在王华民看来,“杨立昆在做的事情,我们不敢保证他是不是能做成,但起码他们团队对这些事情是有认知的,知道现有的问题在哪。如果你连问题是什么都不知道,那就根本不可能去解决它。”
技术发展是非线性的,一个技术路线走到一定程度就会停止,之后会有新技术路线冒出来,超越它,达到更高的程度。“AI也是一样,Sora这一浪目前看是到不了理解物理,实现AGI的程度,后面会有新技术出来把它覆盖掉,最终我们是可以把AGI或者世界模型做出来的。”王华民总结。
没人知道OpenAI在想什么,“Sora发布前,外界并不知道他们在干什么,做到什么程度。”有创业者告诉亿邦动力,“OpenAI内部已经军事化管理,OpenAI的模型不止Sora一种,但大家并不知道有什么,而且他们在深度使用这些模型。”
或许在新一轮技术浪潮到来之前,我们期待Sora能在更多的场景中落地。
来源:亿邦动力