FunASR-端到端语音识别工具包

FunASR的GitHub地址有两个： - https://github.com/alibaba-damo-academy/funasr ：由达摩院语音实验室开源的FunASR项目最初发布于此. - https://github.com/modelscope/FunASR ：是目前FunASR主要的维护和更新地址，包含了更多最新的功能和改进等 .

项目简介

FunASR是一个基础的端到端语音识别工具包，提供了开源的SOTA预训练模型，支持语音识别、语音活动检测、文本后处理等功能.

主要特点

功能丰富：涵盖语音识别、端点检测、标点预测、语言模型、说话人验证、说话人分类和多说话人语音识别等功能.
模型高效：其代表模型Paraformer-large是一种非自回归的端到端语音识别模型，具有高精度、高效率、部署便捷等优点.
支持多种任务：2024年10月10日起增加了对whisper-large-v3-turbo模型的支持，该模型是一个多任务模型，可执行多语言语音识别、语音翻译和语言识别等任务.

项目更新

2024年10月29日，实时转录服务1.12发布，2-pass离线模式支持Sense Voice Small模型.
2024年9月26日，离线文件转录服务4.6、英语离线文件转录服务1.7、实时转录服务1.11发布，修复内存泄漏并支持Sense Voice Small onnx模型.
2024年9月25日，新增关键词 spotting 模型，支持对fsmn_kws、fsmn_kws_mt、sanm_kws、sanm_kws_streaming四个模型的微调与推理.
2024年7月4日，增加了对Sense Voice的支持，它是一个具有多种语音理解能力的语音基础模型，包括ASR、LID、SER和AED等.

FunASR 是由阿里巴巴达摩院开源的一款自动语音识别（ASR）工具套件，专注于实现高性能的语音转文字和语音分析能力。FunASR 支持多种语言和任务，如普通话和英语的离线文件转录、实时语音转录以及语音活动检测（VAD）、关键词识别（KWS）等功能。项目基于先进的深度学习技术，提供了多种模型架构，如 Paraformer 和 Conformer，支持高精度、低延迟的语音处理【16】【17】。

核心特点

多任务支持：提供语音识别、标点符号恢复、语音活动检测等模块，能够满足不同场景需求。
高并发与高效性能：支持多个流的同时处理，以及针对大规模音频文件的处理优化。
易用性与灵活性：支持通过 Python API、Docker 容器和模型部署服务（如 ModelScope）快速上手，也允许高级用户进行自定义开发【16】【17】。

应用场景

会议录音转写：适用于多语种会议录音实时或离线转写。
客户服务语音分析：支持语音识别和情绪分析，提升客户服务效率。
语音控制设备：可用于智能设备中的语音交互【17】【18】。

使用方法

安装：通过 pip 安装 SDK 或从源码构建（Python >= 3.8）。
模型加载：支持使用 ModelScope 或 Hugging Face Hub 上的预训练模型。
部署：可通过 Docker 运行离线和实时服务，也支持 ARM64 平台的部署【17】【18】。

FunASR 的灵活性和强大的功能使其在工业和研究领域都具有广泛应用潜力。更多信息和使用指南请访问其 GitHub 项目页面。

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。