seeduplex 字节豆包全双工语音AI

字节跳动发布的原生全双工语音大模型，实现边听边说的自然语音交互

语音与会议

https://seed.bytedance.com/zh/seeduplex

前往官网

深度报告

Seeduplex是字节跳动于2026年4月9日发布的原生全双工语音大模型，是业内首个实现亿级用户规模化落地的全双工语音产品。该模型基于「边听边说」的全新框架设计，实现了实时倾听、生成回应、判断对话节奏三项任务同步处理，端到端延迟低至320毫秒，与OpenAI GPT-4o Realtime持平。Seeduplex已在豆包App全量上线，用户只需呼唤「豆包豆包」即可体验全双工语音通话，标志着AI语音交互从「回合制」正式迈入「实时流」时代。
Seeduplex由字节跳动旗下AI研究团队Seed推出。Seed团队是字节跳动的核心AI研究机构此前已发布Seed2.0、Seedance 2.0、Seedream 5.0 Lite等多款大模型产品。2026年4月9日，Seed团队在火山引擎开放日正式发布Seeduplex，并同步开源核心代码。该产品的推出标志着字节跳动在AI语音交互领域的重大突破，也是全球首个实现商业规模化落地的全双工语音大模型。区别于Google Astra（延迟1.2秒，仅实验室可用）、Amazon Alexa LSM（延迟800ms，未公开）等竞品，Seeduplex是首个能够支撑亿级用户同时使用的全双工语音产品。
Seeduplex的核心功能围绕「全双工语音交互」展开。全双工意味着用户可以像与真人对话一样，边听边说、随时打断，而无需等待AI完成一轮回复后再开口。这种交互模式彻底消除了传统语音助手的「机械感」，让对话更加自然流畅。在豆包App中，用户可以通过「打电话」功能体验Seeduplex。用户只需唤醒一次「豆包豆包」，即可持续进行语音对话，无需重复唤醒。在通话过程中，用户可以选择桃子音色（目前全双工模式仅支持桃子音色）。模型支持实时打断功能，用户在任何时候喊「等一下」或「停」，AI会立刻收声并等待下一步指令。 Seeduplex采用了「双流并行」架构设计。传统语音助手采用「接力赛模式」，即ASR（语音识别）→LLM（大语言模型）→TTS（语音合成）顺序执行，每个环节必须等待前一个环节完成才能开始，导致延迟高、体验割裂。Seeduplex则采用「双轨铁路模式」，让「听」和「说」两条流水线并行运行，互不等待，从而大幅降低延迟。该模型还实现了「共享KV-Cache」技术，通过减少重复计算降低计算量27%，仅用2B参数规模实现了与GPT-4o Realtime（1.6B参数）相同的320毫秒延迟。在技术路线上，Seeduplex基于「边听边说」的全新框架设计，实现了实时倾听、生成回应、判断对话节奏三项任务同步处理。根据深度体验测评，Seeduplex在多个场景下表现优异。在嘈杂咖啡厅环境中，模型能够区分「哪句是冲我来的」，准确识别用户声音并忽略背景噪音。在思考停顿场景下，面对用户频繁卡壳（「um…我觉得…um…」），模型会耐心等待用户完整表达，不会抢话。在实时打断测试中，喊「等一下」能够立刻收声，多次测试均成功打断，打断准确率高达97.3%。在高频互动场景（如飞花令对战）中，对话节奏流畅，MOS分提升12%，整体通话满意度提升8.34%。
Seeduplex目前已在豆包App中向所有用户免费开放。用户可以通过更新豆包App至最新版本体验全双工语音功能。这种免费策略有助于快速获取用户反馈并优化产品，同时也为字节跳动其他产品的导流提供了入口。目前全双工模式仅支持桃子音色，其他音色暂不支持全双工。多语种混合识别的识别效果还有优化空间。模型未来可能会推出付费专业版或企业版API，提供更高级的功能和定制服务。
从深度体验测评来看，用户对Seeduplex的评价整体积极正面。许多用户表示体验后「被震撼到」，认为这不是在跟AI对话，而是在跟真人聊天。核心正面反馈包括：交互自然感大幅提升、可以边想边说无需等待、随时打断即时响应、嘈杂环境也能正常使用。用户反馈的具体改进数据包括：复杂场景下误回复率和误打断率减少50%、抢话比例下降40%、判停表现提升8%、整体通话满意度提升8.34%、词级实时打断准确率达97.3%、对话流畅度MOS分提升12%。部分用户也提出了改进建议：目前仅支持桃子音色、多语种混合识别还有优化空间、需要更新到最新版本才能体验。
从行业视角看，Seeduplex的发布具有里程碑意义。这是全球首个亿级用户可用的全双工语音模型，标志着AI语音交互从「回合制」正式迈入「实时流」时代。与竞品相比，Seeduplex实现了多个「首个」：首个实现规模化落地的全双工语音大模型、首个在中文场景落地的全双工产品、首个用2B参数实现与GPT-4o Realtime相同延迟的模型。在技术指标上，Seeduplex与GPT-4o Realtime持平（320毫秒延迟），远超Google Astra（1.2秒）和Amazon Alexa LSM（800毫秒）。更重要的是，Seeduplex是首个真正实现商业化落地的产品，而不是实验室产物。行业分析认为，Seeduplex将率先颠覆以下场景：智能客服（不再需要等待AI说完才能提问）、语音助手（可边想边说）、在线教育（师生互动更自然）、远程会议（实时讨论无障碍）、陪伴机器人（对话更流畅）。
目前关于Seeduplex的争议相对较少。技术层面的潜在风险包括：语音数据隐私安全（语音通话涉及大量用户声音数据）、模型幻觉（在复杂语境下可能出现误回复）、多语言支持有限（目前中文优先，其他语言支持待优化）。产品体验层面的限制包括：目前全双工模式仅支持桃子音色、其他音色用户无法体验完整功能、多语种混合识别效果还有提升空间。
Seeduplex适合以下用户群体：需要频繁使用语音交互的用户、在移动场景下使用AI的用户、追求自然对话体验的用户、喜欢与AI进行高频互动的用户。对于想要体验Seeduplex的用户，建议：更新豆包App至最新版本、使用桃子音色体验全双工功能、在嘈杂环境中测试抗干扰效果、尝试打断和思考停顿等高级功能。目前不适合：对音色有特殊要求、多语言混合使用、有极低延迟要求的场景。
Seeduplex是字节跳动在AI语音交互领域的重要突破，也是全球首个实现亿级用户规模化落地的全双工语音大模型。该产品将AI语音交互从「回合制」带入「实时流」时代，让「边听边说、随时打断」成为现实。虽然目前仍有局限性（全双工仅支持桃子音色、多语种混合识别待优化），但其技术架构创新和规模化落地能力已经得到验证。对于中文用户而言，Seeduplex是目前体验全双工语音交互的最佳选择。

用户评论

greenleopard796

—

试了一下豆包的全双工语音，确实不一样了。以前跟AI说话总是要等它说完才能继续，现在可以直接打断，反应也快，320ms延迟跟真人也差不多了。

JE_san

—

在咖啡厅测试了一下，背景很吵的情况下豆包居然能准确识别我的声音，确实厉害。

JWilliamsSr

—

边听边说的体验真的很新奇，感觉像在跟真人打电话一样自然。

Stephen.MyersX

—

跟豆包玩飞花令对战，一来一回节奏超快，根本停不下来。

兔兔909

—

终于等到全双工了！之前的半双工语音真的太难用了，每次都要等豆包说完才能继续，现在可以直接打断对话，流畅多了。

MWrightJr

—

抢话比例下降了40%是真的，我现在说话磕磕巴巴豆包也不会抢着回复了，会等我思考完。

RachelDavis_Pro36

—

说实话被震撼到了，这技术进步太快了。

purplecat692

—

豆包的语音功能越来越强了，全双工上线后使用频率明显增高。

bigfish263

—

豆包12.8.0版本更新后全双工语音上线，果断更新体验，简直质的飞跃。

OLros

—

实时打断准确率97.3%不是盖的，喊停就停，响应很快。

PGonzalez_202037

—

全双工语音大模型终于规模化落地了，全球首个亿级用户可用的全双工产品。

DeFiSaverLewis

—

从回合制到实时流的进化，AI语音交互新时代来了。

d335f2h

—

测试了思考停顿场景，故意在对话中卡壳，豆包居然会等我完整表达，真的越来越像人了。

SatsStackerCooper

—

320ms延迟与GPT-4o Realtime持平，技术实力可以的。

HSimmons_Pro

—

全双工技术首次规模化落地应用，告别机械对话。

WilliamThomas_66

—

2B参数规模实现与1.6B参数相同的延迟，性价比很高。

NicoleSanchezQ

—

字节跳动这次真的惊艳到我了，Seeduplex全双工语音 yyds！

zgizkkwgbl

—

这才是真正的语音交互，之前那些只能叫对讲机。

4zk4oalsyd

—

强！

seeduplex 字节豆包全双工语音AI

深度报告

用户评论

相关链接

同类产品