OpenAI 耳语模型是一个神经网络,可以用 57 种语言执行语音识别和翻译任务。它是在从网络收集的大量多样化的音频和文本数据集上进行训练的。它使用基于变压器编码器-解码器架构的简单端到端方法,并且可以生成具有增强可读性和短语级时间戳的成绩单。
企业现在可以使用以下两种方式构建基于 OpenAI Whisper 模型的应用程序:
Azure OpenAI 服务中的 OpenAI 耳语模型:
OpenAI已经自己提供了Whisper API。使用这个新的Azure OpenAI服务,开发人员可以在特性和功能(包括转录和翻译功能)中使用相同的OpenAI Whisper API。可以在 Azure OpenAI 服务门户中找到 Whisper 模型的用于听录和转换的 REST API。
Azure AI 语音中的 OpenAI 耳语模型:
Azure AI 语音的用户现在可以将新的 OpenAI 的耳语模型与现有的 Azure AI 语音批量听录 API 结合使用。Azure AI 语音中的 Whisper 用户受益于现有功能,包括异步处理、说话人分割、自定义和更大的文件大小。在下面找到详细信息。
- 大文件大小:Azure AI 语音通过启用最大 1GB 的文件来增强耳语听录,并通过允许在单个请求中批处理多达 1000 个文件来处理大量文件的能力。
- 时间戳: 使用 Azure AI 语音,识别结果包括字级时间戳,从而能够识别音频中每个字词的发音位置。
- 扬声器分割:这是 Azure AI 语音的另一个有益功能,可识别音频文件中的各个说话人并标记其语音段。此功能允许客户区分说话者,准确转录他们的话,并创建更有条理和结构化的音频文件转录。
- 自定义/微调(即将推出):Azure 语音中的自定义语音功能允许客户对自己的数据微调 Whisper,以提高识别准确性和一致性。