字幕生成工具WhisperX

工具软件3年前 (2023)发布 AI观察员

728 0 0

这个程序的特点是可以按照单词对齐时间戳，所以基本上生成的字幕都是完整的句子。
生成结果除了srt还有json文件，里面有每一行里面单词的时间戳，可以根据需要二次整理字幕。
另外它还能识别发言人，准确率还可以。
貌似不支持Mac，而且需要NVIDIA的显卡，好在Google Colab可以运行（需要启用GPU）。

使用 whisper large-v2 进行 70 倍实时转录的批量推理
faster-whisper 后端，对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
使用wav2vec2对齐的准确词级时间戳
使用来自 pyannote-audio 的说话人二值化的多说话人 ASR（说话人 ID 标签）
VAD 预处理，在不降低 WER 的情况下减少幻觉和批处理

有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook，仅供参考：

github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb

项目链接

https://github.com/m-bain/whisperX

# 工具软件 # 单词 # 字幕 # 生成

文章版权归作者所有，未经允许请勿转载。

如何使用 ChatGPT 掌握文案写作

AI观察员

500

理解ChatGPT响应的机制

AI观察员

500

如何使用谷歌Bard使用快速工程

AI观察员

521

W.A.L.T：谷歌视频生成模型

AI观察员

517

Microsoft Designer现在具有DALL-E 3驱动的AI图像生成功能

AI观察员

580

谷歌发布SoundStorm：高效的并行音频生成

AI观察员

594

天猫U特购 京东优惠购 京东优惠天猫优惠

字幕生成工具WhisperX

项目链接

用最简单直接的方式把 LLM 部署到云端或本地OpenLLM

CodeTF 是一个基于 Python Transformer 的一站式代码大型语言模型 (Code LLM) 和代码智能库

相关文章

你或许会喜欢