RealtimeSTT 监听麦克风并将语音转录为文本

工具软件3年前 (2023)发布 AI观察员

664 0 0

适用于实时应用程序的易于使用、低延迟的语音转文本库

RealtimeSTT 监听麦克风并将语音转录为文本。

它非常适合：

语音助手
需要快速、精确的语音到文本转换的应用程序

特征

语音活动检测：自动检测您何时开始和停止说话。
实时转录：将语音实时转换为文本。
唤醒词激活：可以在检测到指定的唤醒词时激活。

提示：查看 RealtimeTTS（该库的输出对应项）以了解文本转语音功能。它们共同形成了围绕大型语言模型的强大实时音频包装器。

该库使用：

语音活动检测
- WebRTCVAD 用于初始语音活动检测。
- SileroVAD 可实现更准确的验证。
语音转文本
- Faster_Whisper 用于即时（GPU 加速）转录。
唤醒词检测
- 用于唤醒词检测的豪猪。

这些组件代表了尖端应用的“行业标准”，为构建高端解决方案提供了最现代、最有效的基础。

安装

pip install RealtimeSTT

这将安装所有必要的依赖项，包括仅支持 CPU 的 PyTorch 版本。

尽管可以仅通过 CPU 安装来运行 RealtimeSTT（在本例中使用“tiny”或“base”等小型模型），但您将获得更好的体验：

GPU 支持 CUDA（推荐）

GPU 优化安装需要额外的步骤。建议需要更好性能并拥有兼容 NVIDIA GPU 的用户执行这些步骤。

注意：要检查您的 NVIDIA GPU 是否支持 CUDA，请访问官方 CUDA GPU 列表。

要通过 CUDA 使用具有 GPU 支持的 RealtimeSTT，请按照以下步骤操作：

安装 NVIDIA CUDA 工具包 11.8：
- 访问 NVIDIA CUDA 工具包存档。
- 选择版本 11。
- 下载并安装软件。
安装适用于 CUDA 11.x 的 NVIDIA cuDNN 8.7.0：
- 访问 NVIDIA cuDNN 档案。
- 单击“下载适用于 CUDA 11.x 的 cuDNN v8.7.0（2022 年 11 月 28 日）”。
- 下载并安装软件。
安装 ffmpeg：

您可以从 ffmpeg 网站下载适用于您的操作系统的安装程序。

或者使用包管理器：

在 Ubuntu 或 Debian 上：

sudo apt update && sudo apt install ffmpeg

在 Arch Linux 上：

sudo pacman -S ffmpeg

在 MacOS 上使用 Homebrew (https://brew.sh/)：

brew install ffmpegbr

在 Windows 上使用 Chocolatey (https://chocolatey.org/)：

choco install ffmpegbr

在 Windows 上使用 Scoop (https://scoop.sh/)：

scoop install ffmpegbr

4. 安装支持 CUDA 的 PyTorch：

pip uninstall torchpip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

项目链接

https://github.com/KoljaB/RealtimeSTT

文章版权归作者所有，未经允许请勿转载。

Microsoft 将不再在 Windows 11 PC 上包含 Windows 地图和电影和电视应用程序

AI观察员

530

EasyGUI Python 库在 Ubuntu 上安装示例

AI观察员

501

如何在 Rocky Linux 8 上安装 Apache Web 服务器

AI观察员

528

npm 在 Windows 10 中的什么位置安装软件包 |11?

AI观察员

425

如何在 AlmaLinux 8 上安装 Squid 代理

AI观察员

644

已解决：无法安装马拉地语语言包

AI观察员

466

天猫U特购 京东优惠购 京东优惠天猫优惠

RealtimeSTT 监听麦克风并将语音转录为文本

特征

GPU 支持 CUDA（推荐）

项目链接

Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作

webcamGPT 是一组工具和示例，展示如何使用 OpenAI 视觉 API 对图像、视频文件和网络摄像头流运行推理。

相关文章

你或许会喜欢