O

OpenAI Whisper

OpenAI 开源语音识别模型,支持近百种语言,中文识别接近专业水平

免费 🇨🇳 中文完全 ✓ 国内直连 API
OpenAI Whisper 界面截图

工具简介

Whisper 是 OpenAI 于 2022 年发布的开源语音识别模型,在 68 万小时的多语言监督数据上训练而成。它支持近百种语言的语音转文本,其中中文识别的准确率接近甚至超过部分商业语音识别服务。Whisper 可以完全在本地运行,无需联网,不依赖任何云服务,处理速度和精度可通过选择不同模型大小(tiny 到 large)灵活平衡。

核心功能

  • 多语言语音识别:支持 99 种语言的自动识别和转录,自动检测源语言或手动指定。
  • 中文识别优秀:中文普通话的识别准确率在开源模型中遥遥领先,对标商业级服务。
  • 本地离线运行:完全在本地运行,数据不出本地,适合隐私敏感场景。
  • 多种模型大小:提供 tiny、base、small、medium、large-v3 五种模型,从 39M 到 1.5B 参数,适应不同硬件。
  • 时间戳输出:支持单词级时间戳,方便字幕制作和音视频对齐。

访问说明

  • GitHubopenai/whisper — 完全开源(MIT 协议)
  • API:通过 OpenAI API 的 whisper-1 端点调用($0.006/分钟)
  • 本地安装:pip install openai-whisper,需 Python 3.8+
  • 国内 pip 安装无障碍,无需代理

适合人群

  • 内容创作者:播客、视频的自动字幕生成
  • 开发者:集成语音输入功能到应用中
  • 研究者:语音数据处理和语料库建设
  • 会议记录需求者:录音转文字、会议纪要自动化

Related

相关工具