LPM 1.0

面向视频角色表演的170亿参数实时全双工对话AI模型

语音合成

https://lpm-ai.org/zh

前往官网

深度报告

LPM 1.0（Large Performance Model）是米哈游创始人蔡浩宇成立的AI公司Anuttacon于2026年4月发布的大规模视频角色表演模型。该模型采用170亿参数扩散Transformer架构，专为实时生成能说话、聆听、反应并在长时间交互中保持身份一致的角色视频而设计。LPM 1.0是首个同时实现真正全双工对话视频生成的模型，延迟仅0.35秒（竞品的三分之一），并能在45分钟以上保持零身份漂移。
LPM 1.0由逐火科技（Anuttacon）团队研发，这是一个由20多位研究人员组成的AI团队，与米哈游创始人蔡浩宇密切相关。该团队于2026年4月发布LPM 1.0，同期在arXiv发表技术论文（编号：arXiv:2604.07823）。 LPM 1.0的定位是面向视频角色表演的大型表演模型，专注于解决对话AI代理、虚拟主播和游戏NPC的视觉生成问题。该模型代表了视频生成领域的新突破，将传统单向的视频生成推向了双向全双工对话的新范式。从技术继承角度看，LPM 1.0受益于字节跳动研究团队的前期积累，并在此基础上实现了质的飞跃。Anuttacon团队在其公开的技术报告中指出，该模型采用了43页技术文档详细描述其15项技术创新。
LPM 1.0实现了多个业界领先的突破性功能。在实时性能方面，LPM 1.0实现了仅0.35秒的端到端延迟，这一数字仅为竞品的三分之一。这意味着用户可以实现几乎无缝的对话体验，不会出现明显的等待感。在全双工对话方面，LPM 1.0是首个同时做到「说话」与「听话」两种状态的全双工对话视频生成系统。与传统模型只能生成角色说话不同，LPM 1.0能够在角色说话的同时生成反应式聆听行为，包括眼神接触、表情变化、点头回应等微观表演。在身份一致性方面，LPM 1.0采用了多粒度身份条件化技术，能够在45分钟以上的长时间交互中保持零身份漂移。这是业界公认的最难解决的问题之一，LPM 1.0第一次给出了令人满意的解决方案。在多模态控制方面，LPM 1.0统一支持文本、音频和图像三种控制信号，用户可以通过任意组合来控制角色的表演行为。在零样本泛化方面，LPM 1.0支持任意风格的角色，无需针对特定风格进行微调。包括写实风格、动漫风格、3D渲染风格和非人形角色都能自然生成。在输出规格方面，LPM 1.0支持480P和720P两种分辨率，帧率达到24fps的实时流式输出。
截至目前，LPM 1.0的具体商业模式尚未公开。从模型刚刚发布且技术报告已公开的情况来看，该模型目前可能处于早期研究或测试阶段。参考行业惯例，LPM 1.0未来可能的商业模式包括：通过API接口按调用次数收费的企业级服务；面向开发者的SDK授权；针对游戏或直播行业的定制化解决方案；以及面向虚拟主播和内容创作者的个人版订阅。作为米哈游生态的一部分，LPM 1.0未来可能首先应用于米哈游自身的游戏产品中，为其虚拟角色提供实时对话能力。
由于LPM 1.0于2026年4月刚刚发布，公开用户评论数量有限，但从技术社区反馈来看，业界对其评价极高。在技术社区，LPM 1.0被称为视频生成领域的「 Game Changer」。研究者们特别关注其45分钟零身份漂移的实现，认为这是解决了行业痛点。全双工对话的实现受到了虚拟主播社区的强烈关注。与传统需要大量后期制作才能实现互动效果相比，LPM 1.0能够实时生成对话双方的反应，大幅降低了虚拟主播的内容制作门槛。游戏开发者对LPM 1.0实时生成NPC对话的能力表示关注。如果能够应用于游戏NPC，将为开放世界游戏带来革命性的变化。
LPM 1.0的发布在AI视频生成行业引发了广泛关注。从技术角度看，LPM 1.0采用的17B参数扩散Transformer架构是目前业界规模最大的视频角色表演模型之一。与LiveAvatar、OmniHuman、Kling-Avatar-2等竞品相比，LPM 1.0在实时性和身份保持方面具有明显优势。从行业影响角度看，LPM 1.0代表了视频生成从单向输出向双向互动的重要范式转变。这一转变意味着AI不仅能够生成「说话」，还能够「聆听」，这是人与人自然对话的基本要素。字节跳动研究团队在LPM 1.0的开发中扮演了重要角色，这显示了大型科技公司在视频AI领域的持续投入。
截至目前，LPM 1.0项目本身未出现重大争议。但作为前沿技术产品，用户需要注意以下风险因素。技术成熟度风险方面，LPM 1.0刚刚发布，实际部署效果和大规模应用稳定性需要时间验证。其宣称的性能指标是否能在实际场景中达成仍有待观察。商业化风险方面，模型的商业模式和定价策略尚未明确，未来可能存在使用成本较高的风险。法律与伦理风险方面，实时全双工对话视频生成技术可能被滥用于深度伪造等不当用途，需要关注相关监管政策的发展。
LPM 1.0适合以下用户群体：虚拟主播可以通过LPM 1.0实现与观众的自然实时互动，大幅降低互动直播的内容制作门槛；游戏开发者可以使用LPM 1.0为NPC赋予实时对话能力，创造更具沉浸感的游戏体验；AI对话产品开发者可以为对话AI代理添加视频输出能力，实现更自然的人机交互；内容创作者可以利用LPM 1.0快速生成高质量的对话视频内容。对于普通用户，建议等待模型商业化并提供更友好的使用界面后再尝试。对于技术研究者，可以通过arXiv论文深入了解其技术实现。
LPM 1.0是视频角色表演领域的里程碑产品，其全双工对话和45分钟零身份漂移的实现代表了行业的重大突破。虽然商业化路径尚未明确，但其技术潜力值得关注。

用户评论

云朵_2

—

全双工对话才是真正的突破。之前看别的模型只能生成说话，反应还要后期做，现在终于能实时生成了。

BruceBerg

—

45分钟零身份漂移这个太离谱了！之前用的模型几分钟就开始脸崩，LPM 1.0直接解决了困扰行业多久的难题。

Rachel.KingSr

—

0.35秒延迟这是什么概念？几乎感觉不到延迟啊！之前用别的延迟能给我急死。

Betty.Hughes_7

—

170亿参数果然没白堆，效果比之前用过的所有模型都好。

马贞睿

—

写实动漫3D都能生成，不用单独微调，这个太香了。

ShirleyWood_2024

—

米哈游做这个我完全不意外，他们家虚拟角色技术积累很久了。

LItic

—

游戏NPC如果能用上这个，开放世界体验会直接上一个档次。

Samantha_Simmons_77

—

字节跳动也参与了？看来是强强联手。

Jason_Phillips_Max

—

以后虚拟主播的门槛怕是要被这模型拉低了。

枫叶_8

—

蔡浩宇亲自带队，出来了的东西确实不一样。

3f71zhr

—

首个同时做到全双工对话的模型，这个title够霸气。

竹影344

—

LiveAvatar、OmniHuman被碾了，这波属实是吊打。

DMartinez_2023

—

逐火科技这个名字起的很有意思，希望能在AI领域火一把。

BrandonHernandezQ

—

技术报告43页15图，这投入认真的吗？

JudithRoberts_88

—

多模态控制还统一了，用起来应该很方便。

PDiaz_7715

—

这模型一出来感觉行业要变天。

JackSanchez_X14

—

什么时候能体验到？等待ing。

SWilliams520771

—

48OP/720P 24fps实时输出，画质也很顶。

梅花_2

—

arXiv上论文已看，架构确实有东西。

LPM 1.0

深度报告

用户评论

相关链接

同类产品