谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音
创始人
2024-06-19 23:00:48

来源:IT之家

据谷歌 DeepMind 新闻稿,DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的 "video-to-audio" 技术。

IT 之家获悉,当前 DeepMind 这款 AI 模型依然存在局限性,需要开发者使用提示词为模型预先 " 介绍 " 视频可能的声音,暂时不能直接根据视频画面添加具体音效。

据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条 " 在黑暗中行走 " 的无声视频,再添加 " 电影、恐怖片、音乐、紧张、混凝土上的脚步声 " 等文字提示,相关模型就能生成恐怖风格的背景音效。

DeepMind 同时表示,该 "video-to-audio" 模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频 " 正向性 " 或 " 反向性 ",从而令生成的声音更贴近某些特定场景。

展望未来,DeepMind 表示研究人员正进一步优化这款 "video-to-audio" 模型,计划未来能够让模型直接根据视频内容,无须通过提示词即可生成视频背景音,同时还将改善视频中人物对白的口型同步能力。

相关内容

热门资讯

2026世界杯成AI网络攻击:... 随着2026年世界杯在美国、加拿大和墨西哥拉开帷幕,这场赛事将成为人工智能驱动网络攻击时代的首个大型...
中外高校代表齐聚辽宁探路科教协... 沈阳6月10日电 (王涵)“面对全球性挑战,国际科学合作已不再是可有可无的选择,而是势在必行的必然要...
原创 作... 肯尼迪航天中心的展厅里,"亚特兰蒂斯"号航天飞机被高高悬挂在半空,机腹朝下,姿态宛如刚刚出舱归来。 ...
Siri AI或将在长时间对话... 随着对话式聊天机器人的普及,一个日益受到关注的问题是:部分用户可能对其产生过度依赖,或长时间将其当作...
脑机接口新突破:两地患者凭神经... 两位高位截瘫患者通过脑虎科技自研的“全植入、全无线、全功能”脑机接口系统,完成了一场相隔约八百公里的...