这个仓库是OpenAI的Whisper项目,它是一个通用的语音识别模型。下面从项目概述、模型架构、主要模块和类、安装与使用等方面进行详细介绍:
项目概述
Whisper是一个通用的语音识别模型,它在大量多样的音频数据集上进行训练,是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别等任务。
模型架构
- 整体架构:采用Transformer序列到序列模型,在各种语音处理任务上进行训练,包括多语言语音识别、语音翻译、口语语言识别和语音活动检测。这些任务通过一组特殊的标记(tokens)来联合表示,由解码器进行预测,使得单个模型可以替代传统语音处理管道中的多个阶段。
- 具体组件:
- Aud...