对话智谱AI CEO张鹏:与Sora有差距,但也想让人人可用视频生成模型
创始人
2024-07-27 02:40:34
0

图片来源:视觉中国

蓝鲸新闻7月26日讯(记者 张信宇)在OpenAI用Sora震惊科技业界半年后,越来越多的公司跟进了多模态,并且视为通往AGI之路的标配。

7月26日,AI大模型初创公司智谱AI CEO 张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。跟此前的大语言模型一样,在生成式视频模型的研发中,张鹏认为Scaling Law仍然在起作用:“随着算法、数据不断迭代,相信Scaling Law将继续发挥强大威力。”

清华系背景的智谱AI是中国目前头部AI大模型初创公司之一。今年3月,智谱宣布完成由北京市人工智能产业投资基金参与的一轮融资;随后智谱又在6月初完成新一轮融资,投资方为中东石油巨头沙特阿美(Aramco)旗下风险投资部门管理的基金Prosperity7,估值达到约30亿美元,也成为第一个获得国外基金机构融资的国内AI独角兽。根据公开报道,智谱的股东阵容中还包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构。

与此前Sora、快手可灵等视频大模型的发布节奏不同,智谱清影一发布即全量上线,也就意味着无需申请、无需付费,所有C端用户都能直接体验到清影的AI文生视频、图生视频能力。不过,清影底座的视频生成模型是智谱开发的视频生成大模型CogVideoX,在B端仍然会收取一定费用,标准价格为0.5元/次,也可购买不同价格和优惠的资源包。

而随着清影的发布,智谱清言也终于初步成为了一个多模态的产品,与OpenAI的产品矩阵越来越接近了。

“智谱从2021年就开始布局(视频模型)了。”智谱AI CEO 张鹏在当天采访中解释智谱在多模态上的缘起。不过与视频厂商不同,智谱作为模型厂商,其后选择的技术路线是先提高抽象、宏观层面的能力,以及对世界的建模和理解,再从上到下姜维到视觉信号。“这两个事情有对错吗?不一定。单模态的建模,语言模态的建模,跨模态的建模,最终会走向本质的物理世界统一的表示。大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。”张鹏称。

与Sora一样,智谱也采用了DiT+Transformer的架构来打造视频生成模型,这使得智谱可以节省许多前期成本,并且以较快的增长速度达到一个基本拿得出手的产品水准,然后再继续迭代底层技术,同时也要寻求应用落地及商业化。

而关于视频模型的商业化,“现在这个阶段,无论是To C还是To B,大规模商业化还比较早期。”张鹏解释道,“说实话我们也不知道商业化策略未来会怎么走、什么样的形式最好。目前所谓收费的策略更多的是一种自己的尝试,想看看看市场和用户的反馈,后面根据大家的反馈及时调整。也许大家喜欢这样,也许不喜欢这样,我们也不知道,大家用脚投票吧。”对应的成本方面,在目前刚刚上线的阶段也还无法作出统计。

不过,做视频模型与做语言模型不同的是,智谱在视频数据上存在一定的短板。张鹏表示,视频模型的训练数据对数据质量的要求很高,除了视频文件本身,还要有对应视频的字幕、文字描述等数据。此外,判断视频本身的高质量也有很多维度,包括视频的解析度、风格、分进、组合、连续性等等。并不能在短视频网站随便抓一个视频就能训练,所以对于数据本身的清洗、挑选、筛选也是很重要的过程。

“文字数据已经有多年积累,但视频数据是才这几年的事情,而且难度更高。”张鹏说。

与快手可灵视频模型不同,智谱作为模型厂商并没有自己的视频数据,因此其训练数据主要有两大来源,其一是公开数据集,其二就是拥有视频数据的合作伙伴,具体到智谱目前来说就是B站、央视频和华策影视。

理论上,智谱清影可以将6秒视频的生成时间缩短到30秒,但根据蓝鲸新闻记者的实际体验来看,目前时不时的还是要排队等待,因此实际生成时间会更长。不过考虑到完全没有使用门槛,这一尝鲜的代价仍然可以接受。

相比起来,OpenAI的Sora于今年2月发布后至今一直没有向公众开放使用;快手可灵可能是国内厂商目前阶段效果最好的视频生成大模型,也刚刚于本周开放内测,需要付费最低66元(首周优惠最低33元)的月卡才能使用。

不过,张鹏仍然承认OpenAI的领先优势,“(智谱清影)今天还只是一个初步的阶段性成果,还达不到像Sora演示出来那么好、那么长的视频,还需要更多的努力,也有很多其他原因。我们从来很坦诚承认我们和OpenAI等世界顶级水平之间的差距。但是这条路还得自己走,我们在不断用自己的方式往前追赶,或者想怎么把视频生成算力成本降下来,响应速度提升上去,让技术人人可用。所以我们是在追求技术高度的同时,也同步追求技术的可普及性和成本,这也是我们这个团队的特点。”

相关内容

热门资讯

培育科技创新的“热带雨林” 新华社成都10月17日电从成都市中心一路向南,四川天府新区的“心脏”坐落着一座极具“科幻感”的岛屿—...
智能互动媒体:重塑信息传播与用... 互动媒体:重塑信息传播的未来 Interactive Media: Reshaping the F...
原创 双... 随着双11促销的开启,很多智能手机的价格都跌到了新低,这也是网友们选购手机的最佳时机。本次推荐4款售...
未来已来!当废秸秆可以成为服装... (记者 崔倩)近日,中国科学家利用秸秆等生物废料,成功开发出环保型乙二醇生产新技术。我国是生产和消费...
全国首个!徐汇“数链空间”启用... 10月18日,徐汇区“数链空间”暨上海市区块链技术创新生态集聚空间揭牌仪式在城开国际大厦举行。徐汇此...
股价坐上“过山车”,英伟达怎么... 作者|路世明 编辑|大 风 2024年对于英伟达来说,注定是不平凡的一年。 今年以来,英伟达股价已经...
宁夏银川举行“百日攻坚战”项目... 中新网银川10月18日电 (记者 李佩珊)10月18日,宁夏银川市举行“百日攻坚战”项目签约和开工推...
中上协走进长虹活动圆满结束 长... 10月15日至16日,中国上市公司协会开展了“走进上市公司——四川绵阳行”交流活动,协会会长宋志平率...
2024年Q3全球智能手机销量... 好消息来啦!根据Counterpoint Research的最新数据,2024年第三季度全球智能手机...
苹果宣布:用户可通过中国移动A... 【CNMO科技消息】10月18日,苹果与中国移动宣布,中国移动用户将可通过更多服务组合轻松订阅App...
千架无人机点亮阿联酋夜空 有这... 近日,在中华人民共和国成立75周年暨中阿建交40周年招待会间隙,阿联酋首都阿布扎比上演大型无人机表演...
【好物】小米Sound Pro... 全国领用 3C 数码 8~9 折政府补贴今日继续,小米 Sound Pro 旗舰音响新低,有需求的小...
新兵报到丨寓学于行赴徐圩 研学... 为了让学员们开拓视野、深化认识,10月17日,培训班安排了现场观摩,带领学员踏上了前往徐圩石化基地的...
深爱榜创办人袁子弹的创新致辞:... 深爱榜融媒体讯(张小葭报道)在近期举办的几场重要活动中,深圳市科学思维研究会执行会长袁子弹以一种前所...
消息称一加中端新机测试 IMX... IT之家 10 月 17 日消息,据博主 @数码闲聊站 爆料,一加中端新机测试 IMX906 主摄 ...
揭秘团播生意经:有中腰部主播月... 图片为粉丝分享的录屏截图 出品 | 搜狐科技 作者 | 张莹 编辑 | 杨锦 已经发展了十余年的秀场...
智能网络编程:技术进步与未来发... 网络编程概述 (Overview of Network Programming) 网络编程是计算机...
苹果iPad mini 7平板... 快科技10月18日消息,今天,iPad mini 7现身GeekBench跑分网站。 GeekBen...
价格战打了两年,越降价越贵?买... 价格战已经打了快两年了,很多等等党已经对“降价”习惯了。感觉车价还会越来越低,这是大家公认的趋势。 ...
华为Mate 70手机壳曝光:... 快科技10月18日消息,博主厂长是关同学晒出了华为Mate 70系列手机壳。 如图所示,保护壳证明M...