原创 字节跳动上线即梦AI,正式打响文生视频工具之战
创始人
2024-08-09 08:21:30
0

今年年初,OpenAI突然扔出了一颗深水炸弹——文生视频大模型Sora,它不仅能生成一分钟的连贯、高清视频,且具有极强的仿真能力,也展现出了对物理世界的初步理解。一时间,关于国内AI行业又一次被甩开的焦虑也开始在网络上蔓延。

可谁曾想到,仅仅半年时间过去,在Sora几乎已经“查无此人”时,国内的文生视频模型已经开始了捉对厮杀。就在快手的可灵AI宣布全面开放内测之后,日前字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI”宣布上架,并且与前者一样,即梦AI也同步上线了付费会员体系。

为什么当OpenAI的Sora还停留在PPT阶段,反而是“中国版Sora”率先开始商业化运作呢?要说快手、字节跳动的AI研发能力碾压OpenAI显然并不现实,毕竟字节跳动的豆包、快手的快意还比不了OpenAI的GPT-4o。所以真正的原因,或许是Sora只是OpenAI当时狙击谷歌Gemini 1.5的一个工具,而对于快手和抖音这两大短视频平台而言,文生视频模型即梦AI、可灵AI的意义非凡。

为什么快手、字节跳动的文生视频大模型会如此迅速的落地?Sora给业界带来的启示无疑是一切的起点。在Sora之前,业界最好的文生视频产品Runway、Pika,都只能做到生成一段不到十秒的视频,与其说它们生成的是视频,还不如说是一段GIF。直到Sora实现了生成连贯的一分钟视频,且展现出在多角度多镜头切换中保持一致性,以及遵循现实世界物理规律的能力。

其实Sora采用的Diffusion Transformer架构是这一切的根源,OpenAI创造性地将训练大模型的Transformer架构融入到了Diffusion扩散模型中,为图像视频等多模态数据找到了适合Transformer架构的训练方式。在解决了从零到一的问题之后,如何将文生视频模型商业化就变成了工程问题,也就有了即梦AI和可灵AI的青出于蓝而胜于蓝。

对于OpenAI而言,他们的使命是实现AGI,Sora至是秀肌肉的一个工具,而快手和字节跳动做文生视频则是为核心业务短视频服务。这也是Sora已经没有了下文,而可灵AI、即梦AI后来者居上的重要原因之一。毕竟对于短视频平台而言,文生视频工具意义重大,事实上可灵AI和即梦AI的正面对决一如五年前的视频编辑工具之争。

此前在2019年夏季,抖音的剪映和快手的快影两款视频编辑应用同一时间迎来了爆发式增长,再算上一年后B站上线的必剪,三大以UGC内容起家的视频平台,不约而同的搞起了视频编辑产品。而视频编辑工具之争背后,则是从2019年开始随着流量红利的消失,视频网站开始从UGC过渡到PUGC时代,这一时期抖音、快手、B站也纷纷搞起了对自己平台上创作者的培训。

问题在于,给创作者办培训班固然有效,但平台的人手面对于海量的创作者群体无疑是捉襟见肘。互联网厂商宝贵的人工资源显然不是这样用的,通过技术手段来解决问题才是他们的法宝。因此抖音、快手开始思考,如何通过技术手段提升用户制作短视频的效率和质量,从而让更多的优质内容涌现。

现实也确实如抖音、快手,以及B站所想,剪映等视频编辑工具通过提供模板、滤镜、主题等模块化工具,成功拉低了创作视频内容的难度,让更多人有了输出内容的能力。参与创作的人多了,出现优质内容的概率自然也就更高。

只可惜,即便剪映、快影已经做到了比Adobe Premiere Pro、Vegas Pro等专业级视频编辑软件更傻瓜化,每一个功能都提供了视频讲解,但依然还存在一定的上手难度、距离零门槛尚有一段距离。随着微信视频号进入短视频这个赛道,分蛋糕的厂商又多了一家,以至于抖音和快手吸引用户停留的压力变得更大了。

但AI大模型的出现,就给了抖音和快手实现“人人皆是创作者”的机会。毕竟文生视频大模型的卖点,就是可以通过文字生成一段视频,用户不需要懂得任何视频剪辑的知识和技巧,直接就能把文字脚本变成视频。那么这一特质最适合什么样的创作者呢?当然是还遗留在微信公众号、知乎,以及各大新媒体平台的图文创作者了。

没错,图片创作者向视频创作者转型是一个从几年前就出现的现象,可直到目前为止,微信公众号、知乎,乃至小红书上依然有大量的图文创作者在坚守阵地。短视频平台为了留住这批图文创作者不惜开辟图文专区,但短视频和图文终究是不同的。当年的剪映横空出世,就已经让有志于视频创作的用户加入到短视频创作生态中,所以这一次AI工具面向的并不是他们。

有了可灵AI、即梦AI,图文创作者就可以直接使用文字来生成想要的视频内容,或者干脆为文字生成一段符合情境的视频。对于没有接触过视频制作的内容创作者来说,可灵AI、即梦AI的效果远比以往的文生视频工具更加强大。比如,知乎方面就曾在2020年搞了一个图文可快速生成视频的工具,但由于效果差强人意,用户根本不买账。

以往的文生视频工具都是借助自然语言识别(NLP)技术来进行断句和配音,再利用语义图片识别(OCR)技术来通过标签进行智能配图,以实现将平面的图文转化为更为立体的视频。但这种视频的效果和原生视频可谓是天差地别,只能解决有无问题,却做不到商业化。

经过过去数月的测试,可灵AI已经证明了它们生成的视频和人类借助编辑工具创作的视频,没有拉开质的差距。既然,可灵AI、即梦AI已经具备商业化的水平,同时抖音、快手又需要更多的内容创作者来丰富内容生态,所以一如五年前打响的视频编辑工具争夺战,现在的AI文生视频工具之战也拉开了帷幕。

相关内容

热门资讯

2024世界计算大会观察:算出... 中新网长沙9月25日电 (唐小晴 尹柳清 张雪盈 文菲凡)智能导盲机器狗、“进化”出感知和触觉的人形...
原创 深... 对于“时间”这个概念的探讨,早在史前的火堆旁就已经展开。而自从爱因斯坦横空出世,“时间”的定义便犹如...
总投资550亿!全球首条搭载无... 快科技9月25日消息,今日,合肥国显科技有限公司(以下简称“合肥国显”)举行第8.6代AMOLED生...
华为终端业务再发力:智界R7亮... 出品|搜狐科技 作者|张雅婷 刚发布全球首款三折叠手机不久后,华为于9月24日举行秋季全场景新品发布...
沪首批“市区协同”千亿级产业集... 参展商带来拥有多个可动关节的人形机器人 记者 陈梦泽摄 24日上午,以“工业聚能 新质领航”为主题的...
iQOO Z9 Turbo+ ... 即将上市!iQOOZ9 Turbo+ 现已接受预订:搭载天玑9300芯片,性价比之选 最近手机圈里有...
20余种山西“智”造闪亮登场 本报上海9月24日讯(记者 王佳)今天,以“工业聚能、新质领航”为主题的第24届中国国际工业博览会(...
原创 第... 智能手机堪称是21世纪最伟大的发明之一,它的出现使得人们的生活发生了划时代的变化。不仅实现了集通讯、...
抗周期“护城河”稳固,技术迭代... 袁祎蔓 在国家政策及技术驱动下,我国光伏行业迎来了发展新局面,更是将光伏产业做到了全球领先的地位。2...
江宁区欧美同学会第二次会员代表... 晨报讯(通讯员 顾蓉蓉 南京晨报/爱南京记者 端木)9月24日,南京市江宁区欧美同学会(南京市江宁区...
原创 从... 9月25日消息,美国分立半导体和无源电子元件制造商Vishay Intertechnology In...
CCF HPC China:英... 9月24日,第二十届CCF全国高性能计算学术年会在武汉光谷科技会展中心举行,英维克高算力温控解决方案...
龙岗首批政务AI大模型应用上线... 近日,龙岗区在龙岗智慧中心成功举办了首批政务AI大模型应用上线发布会暨使用培训会,标志着龙岗区在推动...
科力锐入选信通院数字医疗高质量... 近期,由中国信息通信研究院与互联网医疗健康产业联盟携手主办,WHO数字健康合作中心协办的“2024数...
智算网络新突破!阿里云牵头首个... 9月24日上午,在CCF全国高性能计算学术年会上,阿里云、中国科学院计算技术研究所等40余家机构举办...
如何一键管理自媒体账号和小红书... 如何一键管理自媒体账号和小红书图文批量发布? 在数字化时代,自媒体成为了许多企业和个人展示自我、推广...
山西忻州高质量发展:让项目更“... 华启天成低空经济无人机产研项目基地内,技术人员正在对无人机进行测试。山西经济日报全媒体记者 畅雪摄 ...
华为Pura 70系列人像引擎... 2024-09-25 09:17:22 作者:Y 华为Pura 70系列迎来了鸿蒙OS 4.2.0...
推动工业由自动化转向智能化 东... “将A处所有不同形状、不同颜色的小方块移动到B处,并整齐堆叠”,工作人员对着眼前一台机械臂模样的工业...
“深海一号”科考船携“蛟龙号”... 9月24日,“深海一号”远洋科考船抵达香港尖沙咀海运码头。 新华社记者 陈铎 摄 刚刚结束2024西...