O

OpenAI Whisper

OpenAI 开源语音识别模型，支持近百种语言，中文识别接近专业水平

免费 🇨🇳 中文完全 ✓ 国内直连 API

立即访问官网 ↗ 加入对比

OpenAI Whisper 界面截图

工具简介

Whisper 是 OpenAI 于 2022 年发布的开源语音识别模型，在 68 万小时的多语言监督数据上训练而成。它支持近百种语言的语音转文本，其中中文识别的准确率接近甚至超过部分商业语音识别服务。Whisper 可以完全在本地运行，无需联网，不依赖任何云服务，处理速度和精度可通过选择不同模型大小（tiny 到 large）灵活平衡。

核心功能

多语言语音识别：支持 99 种语言的自动识别和转录，自动检测源语言或手动指定。
中文识别优秀：中文普通话的识别准确率在开源模型中遥遥领先，对标商业级服务。
本地离线运行：完全在本地运行，数据不出本地，适合隐私敏感场景。
多种模型大小：提供 tiny、base、small、medium、large-v3 五种模型，从 39M 到 1.5B 参数，适应不同硬件。
时间戳输出：支持单词级时间戳，方便字幕制作和音视频对齐。

访问说明

GitHub：openai/whisper — 完全开源（MIT 协议）
API：通过 OpenAI API 的 whisper-1 端点调用（$0.006/分钟）
本地安装：pip install openai-whisper，需 Python 3.8+
国内 pip 安装无障碍，无需代理

适合人群

内容创作者：播客、视频的自动字幕生成
开发者：集成语音输入功能到应用中
研究者：语音数据处理和语料库建设
会议记录需求者：录音转文字、会议纪要自动化

Related

相关工具

LA Studio

隐私优先的本地 AI 音频工作室——语音转文字、文字转语音、声音克隆一站式桌面应用。

免费暂无中文 ✓ 国内直连

访问官网 ↗ 详情对比

Cleanvoice

AI 播客音频清理工具，自动去除填充词、静音、口吃和背景噪音，让播客和视频音频一键达到专业水准。

付费暂无中文 🔒 需要代理

访问官网 ↗ 详情对比

Deepgram

实时语音转文字 API 平台，支持 30+ 语言，Nova-3 模型识别准确率行业领先

免费增值 🇨🇳 中文部分 ✓ 国内直连 API

访问官网 ↗ 详情对比

Podcastle

AI 播客创作平台：一键录制、编辑、增强音频，文字转播客，支持多人远程录制

免费增值暂无中文 ✓ 国内直连

访问官网 ↗ 详情对比