AI视频进入有声时代！谷歌发布视频生成音频技术效果丝滑惊艳网友！_好文分享

Runway前脚刚发布Gen-3Alpha，Google后脚就跟了个王炸。

Google发布新音频技术V2A

北京时间6月18日凌晨，Google Deepmind发布了视频生成音频（Video-to-Audio，V2A）技术的进展，可以为视频创建戏剧性的背景音乐，逼真的音效，甚至是人物之间的对话。

V2A技术原理

从Google Deepmind官网发布的Blog上看，V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。首先，V2A会对视频和文本提示进行编码，并通过扩散模型迭代运行，将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频，最后再对音频进行解码并与视频数据相结合。

V2A技术应用展望

X网友纷纷表示太赞了，但就是有一个小小小小的问题，和同样是凌晨发布的Runway的视频生成模型Gen-3Alpha一样，这又是一个大家都用不上的超赞模型，到底啥时候开源让咱们试试水!

Google认为，AI视频生成模型飞速发展，但市面上的大多数模型，不管是Sora、Luma，还是刚刚发布的Gen-3Alpha，都只能生成无声视频。而Google所研发的V2A技术能够使AI视频进入“有声时代”，进一步推动AI在视听方面的完善与发展。

灵活性的V2A技术

V2A技术也可以生成人物对话，比如下面视频中角色所说的台词，“这只火鸡看起来棒极了，我好饿啊（this turkey looks amazing， I'm so hungry）”。

此外，V2A技术还支持为视频输入生成无限数量的音轨，用户可以选择定义“正提示”来引导生成所需的声音，或定义“负提示”来引导远离不需要的声音。

V2A技术未来发展

虽然该技术还未开源，但从现有的Demo来看，待其开源之时，必将又掀起AI视频圈一阵大风浪。届时我们估计能看到AI圈“大混战”——Runway的Gen-3Alpha刚生成一个视频，隔壁V2A就给它把音乐配好了;Meme变视频还没玩够呢，用户们已经等不及给它配上声音了。AI视频圈，到底要“卷”成什么样?!

结尾内容

引导读者评论、关注、点赞和感谢观看

本文链接：https://www.24zzc.com/news/171878593186512.html

AI视频进入有声时代！谷歌发布视频生成音频技术效果丝滑惊艳网友！

Google发布新音频技术V2A

V2A技术原理

V2A技术应用展望

灵活性的V2A技术

V2A技术未来发展

相关文章推荐

好文分享最新文章

蜘蛛工具

您可能感兴趣的文章

蜘蛛套餐

超级蜘蛛池优化

域名筛选工具

文本处理工具

AI视频进入有声时代！谷歌发布视频生成音频技术 效果丝滑惊艳网友！

Google发布新音频技术V2A

V2A技术原理

V2A技术应用展望

灵活性的V2A技术

V2A技术未来发展

相关文章推荐

好文分享最新文章

蜘蛛工具

您可能感兴趣的文章

AI视频进入有声时代！谷歌发布视频生成音频技术效果丝滑惊艳网友！