工具简介
Whisper 是 OpenAI 于 2022 年发布的开源语音识别模型,在 68 万小时的多语言监督数据上训练而成。它支持近百种语言的语音转文本,其中中文识别的准确率接近甚至超过部分商业语音识别服务。Whisper 可以完全在本地运行,无需联网,不依赖任何云服务,处理速度和精度可通过选择不同模型大小(tiny 到 large)灵活平衡。
核心功能
- 多语言语音识别:支持 99 种语言的自动识别和转录,自动检测源语言或手动指定。
- 中文识别优秀:中文普通话的识别准确率在开源模型中遥遥领先,对标商业级服务。
- 本地离线运行:完全在本地运行,数据不出本地,适合隐私敏感场景。
- 多种模型大小:提供 tiny、base、small、medium、large-v3 五种模型,从 39M 到 1.5B 参数,适应不同硬件。
- 时间戳输出:支持单词级时间戳,方便字幕制作和音视频对齐。
访问说明
- GitHub:openai/whisper — 完全开源(MIT 协议)
- API:通过 OpenAI API 的
whisper-1端点调用($0.006/分钟) - 本地安装:
pip install openai-whisper,需 Python 3.8+ - 国内 pip 安装无障碍,无需代理
适合人群
- 内容创作者:播客、视频的自动字幕生成
- 开发者:集成语音输入功能到应用中
- 研究者:语音数据处理和语料库建设
- 会议记录需求者:录音转文字、会议纪要自动化
Related