EMO：在弱条件下利用音频视频扩散模型生成富有表现力的肖像视频

206 0 0

输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

支持多语言、谈话、唱歌以及快语速的适配，这玩意又是一个造假利器，这下可能很多名人真要说“不是我说的，你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。

实现方式：

该方法主要分为两个阶段。第一阶段是“帧编码”阶段，在这个阶段，我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段，在这一阶段，一个预先训练好的音频编码器用于处理音频数据的嵌入。此外，面部区域的掩码与多帧的噪声数据结合在一起，用于引导面部图像的生成过程。

紧接着，我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中，我们运用了两种关键的注意力机制：一种是基于参考图像的“参考注意力（Reference-Attention）”，另一种是基于音频的“音频注意力（Audio-Attention）”。

文章版权归作者所有，未经允许请勿转载。

AI观察员

287

AI观察员

273

AI观察员

321

AI观察员

283

AI观察员

303

AI观察员

274

天猫U特购 京东优惠购 京东优惠天猫优惠