字幕生成工具WhisperX

这个程序的特点是可以按照单词对齐时间戳,所以基本上生成字幕都是完整的句子。
生成结果除了srt还有json文件,里面有每一行里面单词的时间戳,可以根据需要二次整理字幕。
另外它还能识别发言人,准确率还可以。
貌似不支持Mac,而且需要NVIDIA的显卡,好在Google Colab可以运行(需要启用GPU)。

  • 使用 whisper large-v2 进行 70 倍实时转录的批量推理
  • faster-whisper 后端,对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
  • 使用wav2vec2对齐的准确词级时间戳
  • 使用来自 pyannote-audio 的说话人二值化的多说话人 ASR(说话人 ID 标签)
  • VAD 预处理,在不降低 WER 的情况下减少幻觉和批处理

有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook,仅供参考:

github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb

项目链接

https://github.com/m-bain/whisperX

© 版权声明

相关文章

天猫U特购  京东优惠购        京东优惠    天猫优惠