供稿: 天津大学教授、博导,自然语言处理实验室 TJUNLP 负责人 熊德意
【导读】 OpenAI 于 2024 年 2 月 15 日(美国当地时间)正式对外发布 Sora 文生视频大模型,这是继 ChatGPT 之后的又一次重大技术里程碑事件。
天津大学自然语言处理实验室在过去一年对大模型进行了全栈深入研究,从通用基础数据建设、基座训练、对齐训练、大模型评测四个关键阶段深入研究大模型,探索大模型内部机理与可解释性,致力于构建安全可信的大模型。
实验室负责人近日就 Sora、大模型、通用人工智能接受了相关媒体采访,观点包括五大部分:(1)从 ChatGPT 看 Sora,(2)机器翻译、大模型与通用人工智能,(3)大模型研发及商业化,(4)国内大模型,(5)影响、风险及趋势。
一、从 ChatGPT 看 Sora
1. Sora 文生视频是继大语言模型之后人工智能技术的又一个重大突破,在视频生成领域,Sora 带来的视频生成能力的突破,可类比 GPT-3 带来的语言生成能力的革新。
Sora 不仅突破了以往视频生成的长度限制,而且显著提升了视频生存的逼真度,扩展了视频生成的灵活性:生成内容灵活,可文生视频、文生图、图生视频、视频前向后向延展等;生成形式灵活,生成视频时长、分辨率、长宽比均可调节。
2. OpenAI 公布的 Sora 技术报告包含的技术细节非常少,我们只能通过技术报告中有限的关键文字,同时将其与已经被广泛研究的 GPT-3 进行类比,以此试图理解它。
Sora 和 GPT-3 都采用 Transformer 作为核心架构,两者生成能力的突破都得益于一个重要因素,规模扩展(Scaling),即数据量、参数量、计算量协同扩展。
规模扩展,使得 GPT-3 从海量文本数据中学习到语言的统计规律(如单词共现、语法约束、语义组合等规律),继而使其进一步捕获到隐藏在语言背后的逻辑、推理、蕴涵关系、长距离依存关系、知识等;
规模扩展,有没有可能使 Sora 从海量视频和文本数据中学习到物理世界视觉投射的统计规律(空间维度物体的语义组合、时间维度状态的依存关系),进而使其捕获视觉影像背后的物理规律、世界模型并由此形成对真实物理世界的理解和模拟能力?
3. 从通用人工智能角度看,Sora 的诞生,补齐了一个关键板块,使文生文,文生图,文/图生视频、视频生文成为可能,从而形成文本与视觉模态的完整闭环,将人类的语言&思维世界与物理世界对接起来,未来有望与大语言模型合力发展,更好地解决符号奠基问题、世界模型问题,推动人工智能快速进入具身智能时代。
4. 任何一种新技术的诞生,都不可避免地面临诸多问题,关键是,它的出现是 0 到 1 突破,未来将会有 1 到 N 的不断更新迭代和升级。
Sora 同样如此,目前生成的视频,存在违背物理定律、时间维度上前后不一致、多个物体同时出现等问题,这些问题将会激发更多的研发和投入,从而进一步优化其背后的算法,深入理解其能力及规模扩展效应,推动 Sora 为代表的文生视频技术的大规模商业化应用。
二、机器翻译、大模型与通用人工智能
5. 机器翻译领域的“规模”通常比其他 AI 领域的规模要大,无论是统计机器翻译还是神经机器翻译,训练一个高质量的自动翻译系统通常需要海量的训练数据,如果不能进行并行训练,庞大的数据规模意味着几周、几个月甚至几年的训练时间,7 年前,并行训练成了神经机器翻译亟需解决的问题,Transformer 由此而诞生。
Transformer 从神经网络架构层面高效解决了并行训练的问题,同时具有很好的扩展性和强大的表征能力 ,这使得其迅速成为机器翻译的主流模型架构,以及后续大模型最青睐和最广为使用的神经网络架构。
6. 大模型的“大”实际上包含三个维度:参数量大、数据量大和计算量大,扩展法则(Scaling Law)将三者有机结合并约束它们协同扩展。
通常情况下,大模型的“大”用参数量规模来衡量,如十亿、百亿、千亿级参数规模,但背后隐藏的还有根据扩展法则推算出的训练数据量和算力规模。
7. 一般认为,大模型“大”的好处在于其带来了能力的涌现,或者说“大”使得模型能够学习和捕获到小模型难以学习到的模式和规律,从而实现能力的跃迁和突破,从某种意义上看,“大”就是由量变带来的质变。
8. 通用人工智能的通用性决定了模型的容量不会太小,规模是实现通用人工智能的一个重要因素。现在的大模型规模达到万亿参数,但与人脑神经元的连接数量相比,仍然不在一个数量级上。随着计算能力的不断增强,现在的大模型,在未来某个时间节点看,可能就是小模型。
三、大模型研发及商业化
9. 大模型的核心竞争力在于其底层技术的不断突破,而底层技术的突破需要人才和算法的持续投入,应用场景虽然重要,但上层应用容易受制于下层技术的更新迭代。
10. 大模型的商业化模式应该与互联网商业模式存在不同。
过去没有成功的商业模式有可能在大模型时代变得可行,如原来机器翻译按 token 收费的模式在大模型商业化中取得了成功;过去成功的商业模式则有可能不适用于大模型,移动互联网的 APP 模式是否适用于大模型还有待观察。
总而言之,大模型是新兴技术,实现商业化能力需要创新商业模式。
11. 大模型技术仍然在不断发展中,因此不存在大模型创业窗口期关闭的说法,法国的 Mistral 就是最好的证明,在 ChatGPT 已推出的情况下,几个人的创业公司如同一匹黑马,通过开源快速杀出一片天地。
12. 对于已经成长起来的大模型企业,建议优化人才团队,明确技术路线,锐意创新,不要过于偏向商业化应用,否则疲于追赶技术的更新迭代。
13. 对于国内大模型风投机构,建议从长远着眼,不要畏惧风险,没有技术冒险就没有技术创新,要敢投广投大模型创业企业,这是百年未有之大变局下的一次史诗级、颠覆性技术浪潮,囿于传统投资思维,抓不住未来真正的机会。
四、国内大模型
14. 中国版的 Sora 模型何时到来,可以看中国版的 ChatGPT 何时到来。过去一年,国内大语言模型发展迅速,甚至出现了百模大战的热闹景象,但“热闹”较多的是同质化竞争,较少的是底层基础技术的原创性突破。
15. 国内和国外大模型的差距不在于模型能力高低,也不在于应用,而在于底层核心技术。而底层核心技术突破的最主要障碍不是算力受限,也不是数据规模和质量受限,而是缺乏足够数量的具有技术远见、敢于技术冒险的大模型人才。
16. 大模型技术仍然在不断发展和突破中,未来格局存在很多变数。
五、影响、风险及趋势
17. 机器翻译技术的发展也曾威胁到相关的翻译从业人员,但翻译行业非常明智地选择拥抱新的技术,现在的译员基本上都会使用机器翻译技术提升自己的翻译效率。未来的视频从业人员,同样也可以拥抱 Sora 为代表的文生视频技术,提升视频制作的效率和效果。
18. 目前还不知道 Sora 是否采用了类似 ChatGPT 的人类价值对齐技术,以规避不合规内容的生成。未来随着技术的不断发展和突破,文生视频的监管与治理将会很重要,以避免“以假乱真”的 AI 生成视频干扰真实的信息传播。
19. 任何一种新技术从诞生到成熟都有一个过程,在这个过程中,积极拥抱新技术,学习新技术,让新技术为自己赋能。
20. 过去 10 年经历了几次技术里程碑事件,如 2013 年左右深度学习作为人工智能主导技术地位的确立,2017 年 Transformer 的提出,2022 年 ChatGPT 的诞生,2024 年 Sora 的出现,可以看到,每次的技术创新都是由很多技术量变引起的技术质变,而且技术质变的速度越来越快。未来,技术创新的速度可能会更快!
21. 大模型将继续沿着复杂推理、世界模型、安全对齐等主要方向向通用人工智能发展。
参考资料:https://zhuanlan.zhihu.com/p/686993218
本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。