Whisper by OpenAI

用于语音识别的神经网络，重塑语音识别格局的开源神器

语音与会议语音合成

https://openai.com/research/whisper

前往官网

深度报告

OpenAI Whisper 是一款于 2022 年 9 月发布的开源自动语音识别（ASR）模型，基于 68 万小时多语言音频数据训练，支持 99 种语言的语音转文字和语音翻译。它由 OpenAI 研究团队开发，以 MIT 协议开源，任何人都可以免费下载、本地部署或集成到自己的产品中。 Whisper 的核心价值在于将原本分散的语音处理任务——识别、翻译、语言检测、时间戳对齐——统一到单一端到端模型中。与此前需要针对特定场景反复调优的语音识别方案不同，Whisper 拥有极强的鲁棒性，对口音、背景噪音、专业术语都有良好的适应能力，开箱即用。
Whisper 的突破来自 OpenAI 构建的超大规模训练数据集。研究团队从互联网上爬取了 68 万小时的音频，覆盖 99 种语言，配合相应的文本标注进行弱监督训练。「弱监督」意味着训练数据并非由专业标注员精心标注，而是来自自然分布的互联网内容，这使数据规模得以大幅扩展，同时让模型学会处理真实场景中的各种噪音和变化。模型基于 Transformer 的 Encoder-Decoder（seq2seq）架构，输入为 Mel 频谱图，输出为文本 token 序列。通过特殊的控制 token，同一套模型权重即可在转写、翻译、语言检测等不同任务间切换。
Whisper 共有 9 个模型变体，覆盖不同的硬件环境和精度要求：最小的 tiny 模型仅 39M 参数，占用约 75MB 磁盘空间，只需 1GB 显存，速度是最大模型的 10 倍，可在树莓派等低功耗设备上运行。英语词错误率约 7.6%，适合实时原型验证和低资源设备。 base 模型（74M 参数）在 tiny 基础上将英语准确率提升至约 5%，资源消耗几乎相同，是入门应用的常用选择。 small 模型（244M 参数）是大多数个人用户和开发者的推荐起点，在现代笔记本上流畅运行，英语词错误率降至约 3.4%。 medium 模型（769M 参数）适合专业转录场景，需要约 5GB 显存，多语言处理能力明显增强，词错误率约 5%。 large-v3（1.55B 参数）是旗舰版本，英语词错误率约 2.4%，多语言约 3.5%，需要约 10GB 显存。适合对准确率要求极高的专业场景，如医疗记录、法律文书转录。 turbo（809M 参数）是 2024 年 9 月发布的新成员，通过知识蒸馏技术从 large-v3 提炼而来，精度接近 large 级别（英语 WER 约 2.5%），速度却是 large 的 8 倍，性价比极高。唯一限制是不支持语音翻译任务，只能做转录。
内容创作领域，Whisper 已成为播客主和视频博主的标配工具。将一小时的播客音频转成文字，过去需要专业人员耗费数小时，现在借助 Whisper turbo 模型，在普通笔记本上不到 10 分钟即可完成，且支持 .srt 和 .vtt 字幕格式直接导出。企业办公场景中，会议录音自动转写极大减轻了文字记录的负担。结合说话人分离工具（如 WhisperX），还可以区分不同发言人，生成结构化的会议纪要。无障碍辅助方面，Whisper 被广泛用于为听障人士提供实时字幕，通过系统内部麦克风捕获视频播放音频，自动生成字幕覆盖在屏幕上。本地部署是 Whisper 相较商业云服务 API 的核心优势。律所、医院、金融机构等对数据隐私敏感的行业，可以将 Whisper 部署在本地服务器，实现零数据外泄的语音转录。借助 whisper.cpp（C++ 实现）或 faster-whisper（CTranslate2 后端），在没有 GPU 的情况下也能在 CPU 上流畅运行。
最简单的使用方式是安装官方 Python 包： pip install openai-whisper whisper 录音.mp3 --model turbo --language zh 三行命令即可完成安装和转录。对于不想本地部署的用户，OpenAI 提供了 Whisper API，定价约每分钟 $0.006，上传音频文件即可获得转录结果，无需 GPU 资源。开发者可以通过 Python SDK 将其集成到任意应用： import whisper model = whisper.load_model("turbo") result = model.transcribe("audio.mp3") print(result["text"])
2024 年 10 月，Fortune 和 TechCrunch 等媒体报道了 Whisper 的幻觉（Hallucination）问题——模型有时会在转录中编造原音频中并不存在的词句。这一问题在静音段、背景噪音、低质量音频处最为明显。一位开发者发现在处理的 26,000 份转录文件中，几乎每份都存在幻觉内容。幻觉问题在医疗场景下尤为危险：若医生口述的病历记录中出现了不存在的药物名称或诊断描述，后果不堪设想。OpenAI 回应称正在持续改进，但尚未给出具体修复时间表。目前的缓解方案是在输入 Whisper 之前先用语音活动检测（VAD）去除非语音段，以及对转录结果进行人工复核，特别是在高风险场景下。
Whisper 开源三年来，围绕它生长出了极为活跃的第三方生态。whisper.cpp 已积累 GitHub 47k+ Star，是目前在 Apple Silicon Mac 上本地部署的最佳方案。faster-whisper 通过量化和 CTranslate2 后端，在同等精度下将速度提升 4-10 倍，显存需求降低 50%。WhisperX 增强了词级时间戳和说话人分离能力，是字幕制作场景的热门选择。甚至出现了 Whisper Web——完全在浏览器中通过 WebGPU 运行，无需服务器，彻底保护隐私。
Whisper 是近年来影响力最深远的开源 AI 工具之一。它降低了语音转文字的技术门槛，让原本属于大企业的专业级语音识别能力变得触手可及。对于内容创作者、开发者、研究人员而言，它是目前综合性价比最高的 ASR 方案。需要注意的是，幻觉问题使其不适合在没有人工复核的情况下直接用于高风险领域（医疗、法律）；实时性能也不及商业流式识别服务。在这些特殊场景下，需要结合具体需求谨慎评估。整体而言，OpenAI Whisper 凭借开源免费、强多语言支持和可本地部署三大优势，已成为语音识别领域不可忽视的基础设施级工具。

用户评论

程敏琳

—

太强了，Whisper turbo 就是 yyds！

BrandonFloresII51

—

第一次在 Colab 上跑，三行代码就出结果，新手友好！

PamelaRamirez_Pro

—

日语识别 WER 只有 4-5%，免费工具里没见过这么强的。

TheBiljanaPreković_x

—

做了七年字幕组，Whisper 把校对时间从 3 小时压到 1 小时，真的绝。

xMadsEie_2024

—

MacBook Air M2 跑 tiny 模型完全流畅，不需要独显，良心！

xSaraPedersen

—

用它做预标注，效率比纯人工高了三到四倍，接单更有底气了。

VReyesJr7

—

srt 文件自动生成，导入剪映直接用，省了 60% 时间，字幕党狂喜。

JOjam

—

独立开发者用 faster-whisper 自托管，一个月成本不到 200 刀，处理几千小时录音，利润率翻倍。

4cdybs

—

large-v3 以后英语识别真的很难挑刺了，v1 时代完全不敢想。

MinerProSanders

—

田野调查访谈录音转文字救了我的论文进度，方言识别虽然不完美但足够用了，配合 WhisperX 说话人分离很方便。

PHarris_9976

—

用它练英语听力，把 TED 演讲跑一遍再对照原字幕学习，比看那些低质量搬运字幕好太多。

SAsan

—

医院用它做语音病历被叫停了，幻觉问题太致命，万一病历里多一个不存在的药名后果不堪设想。OpenAI 能不能出个医疗专用版？

TMartinez_202051

—

专有名词识别很稳，「zkEVM」「zkSync」这些词都能正确转出来，比预期好太多。

Judy.Lewis_2020

—

但文档真的太简陋了，官方 README 跟闹着玩似的，新手全靠社区教程续命，希望官方整点像样的文档。呜呜呜。

psnjq

—

无障碍产品经理路过，我们用它给听障用户做实时字幕，准确率远超之前集成的商业方案。OpenAI 开源这个真的功德无量。

GregoryCooper_77

—

音乐混音里的人声识别就一般了，带背景音乐的准确率掉很多。通用 ASR 来说已经很能打，但我的特定场景还是有点勉强。

Barbara_Mendoza_2024

—

RTX 4090 跑 large-v3，本地处理不用上传第三方平台，客户合规审计直接过，合规部门终于不找我了哈哈！

BButler_9944

—

吐槽一下：large 模型下载要好几个 GB，网速渣的时候等得心态崩了。强烈建议用 turbo，速度快效果也没差多少，新手别硬冲 large。

Whisper by OpenAI

深度报告

用户评论

相关链接

同类产品