FunASR-端到端语音识别工具包


FunASR的GitHub地址有两个: - https://github.com/alibaba-damo-academy/funasr :由达摩院语音实验室开源的FunASR项目最初发布于此. - https://github.com/modelscope/FunASR :是目前FunASR主要的维护和更新地址,包含了更多最新的功能和改进等 .

项目简介

FunASR是一个基础的端到端语音识别工具包,提供了开源的SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能.

主要特点

  • 功能丰富:涵盖语音识别、端点检测、标点预测、语言模型、说话人验证、说话人分类和多说话人语音识别等功能.
  • 模型高效:其代表模型Paraformer-large是一种非自回归的端到端语音识别模型,具有高精度、高效率、部署便捷等优点.
  • 支持多种任务:2024年10月10日起增加了对whisper-large-v3-turbo模型的支持,该模型是一个多任务模型,可执行多语言语音识别、语音翻译和语言识别等任务.

项目更新

  • 2024年10月29日,实时转录服务1.12发布,2-pass离线模式支持Sense Voice Small模型.
  • 2024年9月26日,离线文件转录服务4.6、英语离线文件转录服务1.7、实时转录服务1.11发布,修复内存泄漏并支持Sense Voice Small onnx模型.
  • 2024年9月25日,新增关键词 spotting 模型,支持对fsmn_kws、fsmn_kws_mt、sanm_kws、sanm_kws_streaming四个模型的微调与推理.
  • 2024年7月4日,增加了对Sense Voice的支持,它是一个具有多种语音理解能力的语音基础模型,包括ASR、LID、SER和AED等.

FunASR 是由阿里巴巴达摩院开源的一款自动语音识别(ASR)工具套件,专注于实现高性能的语音转文字和语音分析能力。FunASR 支持多种语言和任务,如普通话和英语的离线文件转录、实时语音转录以及语音活动检测(VAD)、关键词识别(KWS)等功能。项目基于先进的深度学习技术,提供了多种模型架构,如 Paraformer 和 Conformer,支持高精度、低延迟的语音处理【16】【17】。

核心特点

  1. 多任务支持:提供语音识别、标点符号恢复、语音活动检测等模块,能够满足不同场景需求。
  2. 高并发与高效性能:支持多个流的同时处理,以及针对大规模音频文件的处理优化。
  3. 易用性与灵活性:支持通过 Python API、Docker 容器和模型部署服务(如 ModelScope)快速上手,也允许高级用户进行自定义开发【16】【17】。

应用场景

  • 会议录音转写:适用于多语种会议录音实时或离线转写。
  • 客户服务语音分析:支持语音识别和情绪分析,提升客户服务效率。
  • 语音控制设备:可用于智能设备中的语音交互【17】【18】。

使用方法

  1. 安装:通过 pip 安装 SDK 或从源码构建(Python >= 3.8)。
  2. 模型加载:支持使用 ModelScope 或 Hugging Face Hub 上的预训练模型。
  3. 部署:可通过 Docker 运行离线和实时服务,也支持 ARM64 平台的部署【17】【18】。

FunASR 的灵活性和强大的功能使其在工业和研究领域都具有广泛应用潜力。更多信息和使用指南请访问其 GitHub 项目页面