AudioCraft是什么？如何安装使用

工具软件3年前 (2023)发布 AI观察员

377 0 0

AudioCraft是一个PyTorch库，用于音频生成的深度学习研究。AudioCraft 包含推理和训练代码用于两个最先进的 AI 生成模型，产生高质量的音频：AudioGen 和 MusicGen。

Audiocraft 是一个用于通过深度学习进行音频处理和生成的库。它具有最先进的 EnCodec 音频压缩器/分词器，以及 MusicGen，这是一种简单且可控的音乐生成 LM，具有文本和旋律调节功能。

安装

AudioCraft 需要 Python 3.9、PyTorch 2.0.0。要安装 AudioCraft，您可以运行以下命令：

# Best to make sure you have torch installed first, in particular before installing xformers.
# Don't run this if you already have PyTorch installed.
pip install 'torch>=2.0'
# Then proceed to one of the following
pip install -U audiocraft  # stable release
pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft  # bleeding edge
pip install -e .  # or if you cloned the repo locally (mandatory if you want to train).

我们还建议您通过您的系统或 Anaconda 进行安装：ffmpeg

sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install 'ffmpeg<5' -c  conda-forge

模型

目前，AudioCraft 包含以下训练代码和推理代码：

MusicGen：最先进的可控文本到音乐模型。
AudioGen：最先进的文本到声音模型。
Encodec：最先进的高保真神经音频编解码器。
多频段扩散：使用扩散的EnCodec兼容解码器。

训练代码

AudioCraft 包含 PyTorch 组件，用于音频中的深度学习研究以及开发模型的训练管道。有关 AudioCraft 设计原则和说明的一般介绍，以开发您自己的培训管道，请参阅音频工艺培训文档。

有关重现现有工作和使用开发的训练管道的信息，请参阅每个特定模型的说明提供指向配置、示例网格和特定于模型/任务的信息以及常见问题解答的指针。

接口文档

我们为 AudioCraft 提供了一些 API 文档。

常见问题

训练代码是否可用？

是的！我们提供Encodec，MusicGen和Multi Band Diffusion的训练代码。

模型存储在哪里？

拥抱面孔将模型存储在特定位置，可以通过设置环境变量来覆盖该位置。AUDIOCRAFT_CACHE_DIR

许可证

此存储库中的代码在 MIT 许可证下发布，如 LICENSE 文件中所述。
此存储库中的模型权重在 CC-BY-NC 4.0 许可证下发布，如 LICENSE_weights 文件所示。

引文

有关AudioCraft的一般框架，请引用以下内容。

@article{copet2023simple,
    title={Simple and Controllable Music Generation},
    author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
    year={2023},
    journal={arXiv preprint arXiv:2306.05284},
}

当提到特定模型时，请引用特定模型自述文件中提到的内容，例如 ./docs/MUSICGEN.md、./docs/AUDIOGEN.md 等。