Meta 开源了 AudioCraft 音乐生成工具

506 0 0

Meta 上周开源了 AudioCraft，这是一组音乐 AI模型，可以根据文本描述生成高质量的声音和音乐。它由三个模型组成：MusicGen 创建音乐，AudioGen 产生音效，EnCodec 压缩声音以获得更好的质量。

通过 AudioGen，证明了可以训练 AI 模型来执行文本到音频生成的任务。给定声学场景的文本描述，该模型可以生成与具有真实录音条件和复杂场景上下文的描述相对应的环境声音。
MusicGen 是专门为音乐生成量身定制的音频生成模型。音乐曲目比环境声音更复杂，在创建新颖的音乐作品时，在长期结构上生成连贯的样本尤其重要。
EnCodec 是一种有损神经编解码器，经过专门训练，可以压缩任何类型的音频并以高保真度重建原始信号。它由一个带有残差矢量量化瓶颈的自动编码器组成，该瓶颈可生成多个具有固定词汇的并行音频标记流。不同的流捕获不同级别的音频波形信息，使我们能够从所有流中重建高保真度的音频。