HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2

工具软件3年前 (2023)发布 AI观察员

593 0 0

HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2，单样本即可克隆语音。现在已经能实现：让一个明星的采访视频，变成他讲述任意小故事（内容可以GPT编）的视频，声音是他的声音，嘴型也能对上。

🐸TTS 是一个用于高级文本转语音生成的库。

🚀 超过 1100 种语言的预训练模型。

🛠️ 用于以任何语言训练新模型和微调现有模型的工具。

📚 用于数据集分析和管理的实用程序。

🥇 TTS 性能

HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2

带下划线的“TTS*”和“Judy*”是未开源发布的内部🐸TTS 模型。他们来这里是为了展示潜力。以点为前缀的模型（.Jofish、.Abe 和 .Janice）是真实的人声。

特征

用于 Text2Speech 任务的高性能深度学习模型。
- Text2Spec 模型（Tacotron、Tacotron2、Glow-TTS、SpeedySpeech）。
- 扬声器编码器可有效计算扬声器嵌入。
- 声码器模型（MelGAN、Multiband-MelGAN、GAN-TTS、ParallelWaveGAN、WaveGrad、WaveRNN）
快速高效的模型训练。
终端和 Tensorboard 上的详细训练日志。
支持多扬声器 TTS。
高效、灵活、轻量但功能齐全 Trainer API 。
已发布且可供使用的模型。
用于在 dataset_analysis 下整理 Text2Speech 数据集的工具。
使用和测试模型的实用程序。
模块化（但不是太多）代码库可以轻松实现新想法。

安装

🐸TTS 在 Ubuntu 18.04 上测试，Python >= 3.9, < 3.12..

如果您只对使用已发布的 🐸TTS 模型合成语音感兴趣，从 PyPI 安装是最简单的选择。

pip install TTS

如果您计划编码或训练模型，请克隆 🐸TTS 并在本地安装。

git clone https://github.com/coqui-ai/TTSpip install -e .[all,dev,notebooks]  # Select the relevant extras

如果您使用的是 Ubuntu (Debian)，您还可以运行以下命令进行安装。

$ make system-deps  # intended to be used on Ubuntu (Debian). Let us know if you have a different OS.$ make install

如果您使用的是 Windows，@GuyPaddock 在此编写了安装说明。

Docker 镜像

您还可以尝试 TTS，无需安装 docker 镜像。只需运行以下命令，您无需安装即可运行 TTS。

docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpupython3 TTS/server/server.py --list_models #To get the list of available modelspython3 TTS/server/server.py --model_name tts_models/en/vctk/vits # To start a server

然后，您可以在此处享受 TTS 服务器有关 docker 映像（例如 GPU 支持）的更多详细信息可以在此处找到