VibeVoice

微软开源的语音AI模型家族，支持90分钟超长音频生成

语音合成

https://github.com/microsoft/vibevoice

前往官网

深度报告

VibeVoice 是微软研究院推出的开源语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音（TTS）等多项能力。该项目于 2024 年 8 月发布研究论文，2026 年 3 月正式开源。VibeVoice 通过创新的 Next-token Diffusion 技术和超低帧率语音编码器，实现了长达 90 分钟的多说话人语音生成，在开源社区获得广泛关注，GitHub Star 数超过 2.7 万。
VibeVoice 由微软亚洲研究院（Microsoft Research Asia）研发，是微软在语音 AI 领域的重要开源项目。微软作为全球领先的科技公司，在 Azure AI、Cortana、ChatGPT 语音功能等方面均有深厚积累，此次开源 VibeVoice 旨在填补开源语音 AI 领域的技术空白。 2024 年 8 月，微软研究院发表 VibeVoice 技术论文（arXiv:2508.19205），提出基于 Next-token Diffusion 的语音生成框架。2025 年 8 月 27 日，微软正式发布 VibeVoice 语音合成模型。2026 年 3 月 30 日，VibeVoice 正式开源，同步发布 VibeVoice-ASR-7B（语音识别）和 VibeVoice-TTS-1.5B（语音合成）两个核心模型。 VibeVoice 定位于开源语音 AI 领域，旨在为研究者和开发者提供高性能、长时语音处理能力。与商业语音 API（如 ElevenLabs、Azure TTS）相比，VibeVoice 支持本地部署，核心技术指标达到业界领先水平。
这是 VibeVoice 家族的核心模型，支持将文本转换为自然的多说话人对话语音。主要功能包括：超长音频生成（最长 90 分钟连续音频）、多说话人支持（最多 4 位不同说话人，每位拥有独立音色与说话风格）、细节拟真（自然呈现呼吸声、顿挫感和对话间停顿）、背景音乐与音效（可自动加入背景音乐和清唱等氛围元素）。专注于长音频处理的语音识别模型，支持 60 分钟超长音频一次性处理、说话人追踪、时间戳标注和文本转录三合一功能、50+ 语言支持。针对实时应用场景优化的轻量级模型，首音频输出延迟约 300 毫秒，适合交互式语音应用。 VibeVoice 采用多项技术创新：Next-token Diffusion 框架通过变分自编码器将语音波形编码为连续潜在向量序列，实现自回归式连续语音生成；超低帧率压缩技术将帧率压缩至 7.5Hz，生成 90 分钟音频仅需处理约 6.4 万个 token；多角色协同生成通过角色标签实现音色切换，在切换时自动加入呼吸声、停顿等非语言提示。根据测试，VibeVoice 能实现以下具体功能：新闻播报（数字和专业术语发音准确率高达 98.3%）、小说朗读（能较好表现对话中的语气变化，处理长段落时需手动调整停顿位置）、智能客服（合成语音自然度超过部分商业 API）、播客制作（自动将脚本生成为播客音频）、视频配音（为视频内容提供语音解说）。
VibeVoice 采用 MIT 许可证开源，完全免费用于研究和商业用途。用户可以在本地部署模型，无需支付 API 调用费用。虽然模型本身免费，但部署需要高性能硬件支持。根据测试，VibeVoice-TTS-1.5B 最低需要 8GB 显存，推荐 16GB 以上显存才能稳定运行。未量化模型加载约需 9GB 显存，合成任务峰值超过 11GB，采用混合量化策略后可在 6.8GB 显存内稳定运行。对比商业语音 API（如 ElevenLabs、Azure TTS、ChatGPT TTS），VibeVoice 的优势在于一次生成无需按字符/分钟付费，支持本地部署保护数据隐私，可定制化程度高。劣势在于硬件要求较高，需要技术能力部署维护、实时性不如商业 API。
正面评价包括：自动化能力强（多说话人协同生成，复杂对话场景表现出色）、集成度高（开源模型而非封闭 API，支持 Hugging Face Transformers 框架）、功能创新（90 分钟超长音频生成是业界领先指标）、技术突破（7.5Hz 超低帧率编码是核心技术创新）、社区活跃（GitHub Star 超过 2.7 万，说明受到广泛关注）。负面评价包括：价格过高（高端硬件配置成本高昂，8GB 显存是最低门槛）、硬件要求高（未量化模型需要近 9GB 显存）、功耗较高（长时间合成任务对 GPU 负载大）、部署复杂（官方文档看似简单，实际操作暗藏玄机）、细节问题（对包含爆破音的语句处理仍有不足，容易产生高频噪声）。综合来看，用户对 VibeVoice 的技术创新给予高度评价，90 分钟超长音频生成和 7.5Hz 编码技术代表了语音 AI 领域的突破。但在硬件门槛、部署复杂度、实际应用稳定性方面存在较大争议。部分技术爱好者认为其代表了开源语音 AI 的发展方向，但目前尚不能完全替代商业语音 API。
技术社区对 VibeVoice 的技术创新给予积极评价，认为其解决了长音频处理的行业痛点。与字节跳动 CosyVoice 相比，VibeVoice 走的是「小而精」的技术路线，在推理速度上快约 30%，更注重消费级硬件上的优化表现。 VibeVoice 的发布标志着开源语音 AI 领域进入新阶段。竞争对手包括 CosyVoice（字节跳动）、Extoral TTS、Coqui TTS 等。VibeVoice 在超长音频生成和多说话人支持方面具有明显优势。首次将 Next-token Diffusion 应用于语音生成，实现了 90 分钟连续音频生成的技术突破。7.5Hz 超低帧率编码是革命性创新，压缩效率较 Encodec 提升 80 倍。
主要争议包括：硬件门槛争议（61GB 显存要求被指过高，限制了在消费级显卡上的应用）、部署复杂度（官方文档与实际使用存在差距，新手部署难度大）、版权风险（生成内容的版权归属尚不明确）。潜在风险包括：执行风险（长音频生成可能遇到显存不足导致崩溃）、隐私风险（本地部署虽保护隐私，但模型本身的安全性有待验证）、竞争风险（大厂入局可能压缩开源空间）。
推荐使用群体包括：研究人员（适合需要长音频处理、语音合成研究的场景）、开发者（适合需要本地部署、定制化语音服务的场景）、技术爱好者（适合热衷尝试 AI 新技术、愿意投入硬件成本的用户）。建议等待群体包括：预算有限用户（建议等待更轻量的优化版本）、普通用户（建议使用商业 API 更便捷）、实时性要求高用户（建议选择商业实时语音服务）。
VibeVoice 代表了开源语音 AI 领域的重要突破，90 分钟超长音频生成和 Next-token Diffusion 技术具有前瞻性。虽然在硬件门槛和部署复杂度方面存在挑战，但在技术创新和开源生态方面价值显著。创新性：开源语音 AI 领域的先行者，技术指标领先。成熟度：开源初期，生态和工具链仍在完善。成本：硬件投入较高，但边际成本为零。适用性：适合有技术能力的开发者和研究者。目前 VibeVoice 适合作为开源语音 AI 的研究和学习工具，而非直接替代商业语音 API 的生产级解决方案。建议技术爱好者和专业开发者先行试用，关注后续轻量版本发布。

用户评论

8094m1t

—

部署要求太高了，61GB显存劝退。

Anthony_MoralesIII8

—

90分钟超长音频生成太香了！

JRichardson

—

MIT开源协议，企业可以直接商用。

LeonardoVan wegen

—

对比CosyVoice，推理速度快30%，但音色多样性不如字节。

SEpow007

—

7.5Hz编码技术太牛了，压缩率提升80倍！

Beverly_Cruz_Plus629

—

新闻播报测试准确率98.3%，但情感表达略显平淡。

Nicholas.Bailey_66

—

GitHub星标2.7万+，开源社区反响强烈。

OctoOps_Henderson

—

4说话人支持，做播客太方便了。

MichaelLarsen

—

本地部署保护隐私，不用担心数据泄露。

Walle_tWolf978

—

小说朗读场景表现不错，但长段落节奏容易乱。

松涛_18

—

智能客服合成效果居然超过部分商业API！

Violet537

—

用RTX 4090跑，显存直接爆了，建议上A100。

tinyrabbit765

—

量化后6.8GB显存能跑，但生成速度明显变慢。

DYjac

—

Next-token Diffusion技术应用在语音合成领域是首创。

AnnaColemanQ77

—

微软开源这是要改变语音AI格局啊！

Bruce_ReyesQ

—

官方文档和实际部署有差距，新手慎入。

JudyVasquez_20223

—

对比ElevenLabs，免费是真香，但实时性不如商业API。

JaniceHernandez52040

—

50+语言支持太顶了，做跨境内容利器。

Shirley508

—

技术突破确实牛，但想用在生产环境还得等生态成熟。

VibeVoice

深度报告

用户评论

相关链接

同类产品