如何使用谷歌音乐LM？

谷歌Google3年前 (2023)发布 AI观察员

408 0 0

Google MusicLM是一种高级语言模型，专门设计用于根据文本描述制作音乐作品。这种由谷歌开发的创新模式专注于音乐生成领域。利用AudioLM的基础，AudioLM主要用于提供连贯的语音和钢琴音乐延续，MusicLM无需成绩单或符号音乐表示即可运行。

AudioLM的功能涉及将输入音频转换为一系列离散令牌，使模型能够学习音频数据中固有的模式和结构。通过利用这种方法，AudioLM 成功地生成了音频序列，同时保持了长期的一致性。

基于这个框架，Google MusicLM采用了类似的方法来生成基于提供的音乐。文本说明.例如，通过输入描述性提示，例如“4/4 拍签名即兴演奏中舒缓的吉他旋律”，MusicLM 可以生成相应的音乐作品，捕捉给定描述的本质。AudioLM带有两个分词器：

产生声学令牌的SoundStream标记器
w2v-BERT 分词器，可生成语义标记

让我们来看看 AudioLM 中的分层阶段：

语义建模：这一初始阶段的重点是建立长期的结构一致性。它涉及从输入信号中提取高级结构，捕获整体组织和安排。
粗声学建模：在此阶段，生成声学标记，然后根据语义标记进行连接或条件化。此过程有助于建立音频的粗略表示形式，同时考虑其语义和声学方面。
精细声学建模：第三阶段通过处理粗声学标记和精细声学标记来进一步增强音频。这种额外的改进增加了生成的音频的深度和复杂性。为了重建音频波形，声学标记被馈送到 SoundStream 解码器中。

对于MusicLM，AudioLM的多阶段自回归建模作为生成组件。但是，MusicLM 通过合并文本调节来扩展此功能。在提供的图像中，音频文件通过三个组件进行处理：SoundStream，w2v-BERT和MuLan。如前所述，SoundStream 和 w2v-BERT 处理和标记输入音频信号。另一方面，花木兰代表了音乐和文本的联合嵌入模型。它由两个独立的嵌入塔组成，每个塔都专用于一种特定的模式，即文本和音频。

在整个过程中，音频被馈送到所有三个组件中，而文本描述则专门交给木兰。为了确保一致的表示，MuLan嵌入被量化，从而为调理信号（文本描述）和音频输入使用离散标记形成统一的格式。

然后，MuLan 生成的输出被定向到语义建模阶段，在该阶段，模型学习音频标记和语义标记之间的关系。后续步骤遵循与 AudioLM 中类似的工作流。要更清楚地了解此过程，请参阅提供的图像。

音乐LM的优势

MusicLM是在AudioLM和MuLan的基础上开发的，具有三个明显的优势。首先，它具有根据文本描述生成音乐的能力，允许用户以书面形式指定他们想要的音乐作品。其次，它可以利用输入旋律来扩展其功能。例如，通过提供嗡嗡作响的旋律并指示 MusicLM 将其转换为吉他即兴演奏，它可以成功完成任务。最后，MusicLM 擅长生成各种乐器的扩展序列，使其能够在各种乐器上制作冗长而复杂的音乐作品。

用于训练 MusicLM 的训练数据由大约 5.5k 对音乐和相应的文本组成。该数据集包含超过 200，000 小时的音乐的广泛集合，并附有人类专家提供的详细描述性文本。谷歌已经在Kaggle上以“MusicCaps”的名义提供了这个数据集，可以使用此链接.

我现在可以尝试一下吗？

谷歌目前表示，他们无意分发与MusicLM相关的模型。这一决定可能源于在公开提供模型之前需要进一步开发和完善。然而，在白皮书由Google发布，提供了许多示例来展示MusicLM根据文本描述生成音乐的能力。这些示例用于演示该模型的潜力及其在文本提示的指导下创建音乐作品的能力。

提示示例

令人回味的描述：例如，“动感十足的视频游戏的令人振奋的配乐。它具有快节奏，充满活力的节拍和富有感染力的电吉他旋律。音乐的特点是重复的模式，既令人难忘，又穿插着意想不到的元素，如撞钹和动态鼓声。
延长持续时间：这种卓越的功能使 MusicLM 能够生成跨越 5 分钟的连续、高质量的音频。用户可以提供“悲伤的后摇滚”或“有趣的嘻哈”等文本提示来指导音乐的产生，从而产生有凝聚力和身临其境的音乐体验。
叙事模式：MusicLM的这一显着功能使用户能够通过提供一系列形成有凝聚力的故事的文本提示来指示模型创建音乐序列。例如，“从舒缓的冥想开始（0：00-0：15），逐渐过渡到令人振奋的唤醒主题（0：15-0：30），转向充满活力的跑步节奏（0：30-0：45），最后以激励和强大的部分（0：45-0：60）结束。
旋律和文本调节：用户可以利用此功能生成与提供的旋律一致的音乐，无论是嗡嗡声还是口哨声，同时仍遵循所需的文本提示。从本质上讲，它允许将现有音频序列转换为所需的音频表示。
基于位置的主题：MusicLM可以根据特定地点或环境的描述生成音乐。例如，“捕捉海滩边宁静一天的宁静和阳光普照的氛围”可以作为文本提示，生成包含此类环境的情绪和氛围的音乐。

# 谷歌Google