LPM 1.0

面向视频角色表演的170亿参数实时全双工对话AI模型

深度报告

  • LPM 1.0(Large Performance Model)是米哈游创始人蔡浩宇成立的AI公司Anuttacon于2026年4月发布的大规模视频角色表演模型。该模型采用170亿参数扩散Transformer架构,专为实时生成能说话、聆听、反应并在长时间交互中保持身份一致的角色视频而设计。LPM 1.0是首个同时实现真正全双工对话视频生成的模型,延迟仅0.35秒(竞品的三分之一),并能在45分钟以上保持零身份漂移。

  • LPM 1.0由逐火科技(Anuttacon)团队研发,这是一个由20多位研究人员组成的AI团队,与米哈游创始人蔡浩宇密切相关。该团队于2026年4月发布LPM 1.0,同期在arXiv发表技术论文(编号:arXiv:2604.07823)。 LPM 1.0的定位是面向视频角色表演的大型表演模型,专注于解决对话AI代理、虚拟主播和游戏NPC的视觉生成问题。该模型代表了视频生成领域的新突破,将传统单向的视频生成推向了双向全双工对话的新范式。 从技术继承角度看,LPM 1.0受益于字节跳动研究团队的前期积累,并在此基础上实现了质的飞跃。Anuttacon团队在其公开的技术报告中指出,该模型采用了43页技术文档详细描述其15项技术创新。

  • LPM 1.0实现了多个业界领先的突破性功能。 在实时性能方面,LPM 1.0实现了仅0.35秒的端到端延迟,这一数字仅为竞品的三分之一。这意味着用户可以实现几乎无缝的对话体验,不会出现明显的等待感。 在全双工对话方面,LPM 1.0是首个同时做到「说话」与「听话」两种状态的全双工对话视频生成系统。与传统模型只能生成角色说话不同,LPM 1.0能够在角色说话的同时生成反应式聆听行为,包括眼神接触、表情变化、点头回应等微观表演。 在身份一致性方面,LPM 1.0采用了多粒度身份条件化技术,能够在45分钟以上的长时间交互中保持零身份漂移。这是业界公认的最难解决的问题之一,LPM 1.0第一次给出了令人满意的解决方案。 在多模态控制方面,LPM 1.0统一支持文本、音频和图像三种控制信号,用户可以通过任意组合来控制角色的表演行为。 在零样本泛化方面,LPM 1.0支持任意风格的角色,无需针对特定风格进行微调。包括写实风格、动漫风格、3D渲染风格和非人形角色都能自然生成。 在输出规格方面,LPM 1.0支持480P和720P两种分辨率,帧率达到24fps的实时流式输出。

  • 截至目前,LPM 1.0的具体商业模式尚未公开。从模型刚刚发布且技术报告已公开的情况来看,该模型目前可能处于早期研究或测试阶段。 参考行业惯例,LPM 1.0未来可能的商业模式包括:通过API接口按调用次数收费的企业级服务;面向开发者的SDK授权;针对游戏或直播行业的定制化解决方案;以及面向虚拟主播和内容创作者的个人版订阅。 作为米哈游生态的一部分,LPM 1.0未来可能首先应用于米哈游自身的游戏产品中,为其虚拟角色提供实时对话能力。

  • 由于LPM 1.0于2026年4月刚刚发布,公开用户评论数量有限,但从技术社区反馈来看,业界对其评价极高。 在技术社区,LPM 1.0被称为视频生成领域的「 Game Changer」。研究者们特别关注其45分钟零身份漂移的实现,认为这是解决了行业痛点。 全双工对话的实现受到了虚拟主播社区的强烈关注。与传统需要大量后期制作才能实现互动效果相比,LPM 1.0能够实时生成对话双方的反应,大幅降低了虚拟主播的内容制作门槛。 游戏开发者对LPM 1.0实时生成NPC对话的能力表示关注。如果能够应用于游戏NPC,将为开放世界游戏带来革命性的变化。

  • LPM 1.0的发布在AI视频生成行业引发了广泛关注。 从技术角度看,LPM 1.0采用的17B参数扩散Transformer架构是目前业界规模最大的视频角色表演模型之一。与LiveAvatar、OmniHuman、Kling-Avatar-2等竞品相比,LPM 1.0在实时性和身份保持方面具有明显优势。 从行业影响角度看,LPM 1.0代表了视频生成从单向输出向双向互动的重要范式转变。这一转变意味着AI不仅能够生成「说话」,还能够「聆听」,这是人与人自然对话的基本要素。 字节跳动研究团队在LPM 1.0的开发中扮演了重要角色,这显示了大型科技公司在视频AI领域的持续投入。

  • 截至目前,LPM 1.0项目本身未出现重大争议。但作为前沿技术产品,用户需要注意以下风险因素。 技术成熟度风险方面,LPM 1.0刚刚发布,实际部署效果和大规模应用稳定性需要时间验证。其宣称的性能指标是否能在实际场景中达成仍有待观察。 商业化风险方面,模型的商业模式和定价策略尚未明确,未来可能存在使用成本较高的风险。 法律与伦理风险方面,实时全双工对话视频生成技术可能被滥用于深度伪造等不当用途,需要关注相关监管政策的发展。

  • LPM 1.0适合以下用户群体:虚拟主播可以通过LPM 1.0实现与观众的自然实时互动,大幅降低互动直播的内容制作门槛;游戏开发者可以使用LPM 1.0为NPC赋予实时对话能力,创造更具沉浸感的游戏体验;AI对话产品开发者可以为对话AI代理添加视频输出能力,实现更自然的人机交互;内容创作者可以利用LPM 1.0快速生成高质量的对话视频内容。 对于普通用户,建议等待模型商业化并提供更友好的使用界面后再尝试。对于技术研究者,可以通过arXiv论文深入了解其技术实现。

  • LPM 1.0是视频角色表演领域的里程碑产品,其全双工对话和45分钟零身份漂移的实现代表了行业的重大突破。虽然商业化路径尚未明确,但其技术潜力值得关注。

用户评论

  • 头像
    云朵_2
    全双工对话才是真正的突破。之前看别的模型只能生成说话,反应还要后期做,现在终于能实时生成了。

  • 头像
    BruceBerg
    45分钟零身份漂移这个太离谱了!之前用的模型几分钟就开始脸崩,LPM 1.0直接解决了困扰行业多久的难题。

  • 头像
    Rachel.KingSr
    0.35秒延迟这是什么概念?几乎感觉不到延迟啊!之前用别的延迟能给我急死。

  • 头像
    Betty.Hughes_7
    170亿参数果然没白堆,效果比之前用过的所有模型都好。

  • 头像
    马贞睿
    写实动漫3D都能生成,不用单独微调,这个太香了。

  • 头像
    ShirleyWood_2024
    米哈游做这个我完全不意外,他们家虚拟角色技术积累很久了。

  • 头像
    LItic
    游戏NPC如果能用上这个,开放世界体验会直接上一个档次。

  • 头像
    Samantha_Simmons_77
    字节跳动也参与了?看来是强强联手。

  • 头像
    Jason_Phillips_Max
    以后虚拟主播的门槛怕是要被这模型拉低了。

  • 头像
    枫叶_8
    蔡浩宇亲自带队,出来了的东西确实不一样。

  • 头像
    3f71zhr
    首个同时做到全双工对话的模型,这个title够霸气。

  • 头像
    竹影344
    LiveAvatar、OmniHuman被碾了,这波属实是吊打。

  • 头像
    DMartinez_2023
    逐火科技这个名字起的很有意思,希望能在AI领域火一把。

  • 头像
    BrandonHernandezQ
    技术报告43页15图,这投入认真的吗?

  • 头像
    JudithRoberts_88
    多模态控制还统一了,用起来应该很方便。

  • 头像
    PDiaz_7715
    这模型一出来感觉行业要变天。

  • 头像
    JackSanchez_X14
    什么时候能体验到?等待ing。

  • 头像
    SWilliams520771
    48OP/720P 24fps实时输出,画质也很顶。

  • 头像
    梅花_2
    arXiv上论文已看,架构确实有东西。