Odyssey

实时生成可交互3D视频世界的AI世界模型

深度报告

  • Odyssey 是由伦敦 AI 创业公司 Odyssey AI Lab 开发的一款革命性世界模型(World Model)产品,能够实时生成可交互的 3D 视频世界。与传统视频生成模型不同,Odyssey 可以让用户像玩游戏一样「走进」视频内容中进行实时交互体验。该公司由自动驾驶领域先驱 Oliver Cameron 和 Jeff Hawke 创立,已获得超过 2700 万美元融资,投资方包括 EQT Ventures、GV(谷歌风投)以及皮克斯联合创始人 Ed Catmull。技术层面,Odyssey 采用逐帧预测机制,每 40 毫秒生成一帧画面,实现 50 毫秒内开始流媒体输出的实时性能。虽然当前产品仍处于早期阶段,视觉质量和稳定性有待提升,但其代表的新一代交互式视频技术方向值得关注。

  • Odyssey 是一家总部位于伦敦的人工智能初创公司,成立于 2023 年左右,由两位自动驾驶领域的资深专家联合创立。联合创始人 Oliver Cameron 此前在 Wayve 担任自动驾驶 AI 研究重要职务,而 Jeff Hawke 则曾是 Voyage 自动驾驶公司的 CEO。两人将自动驾驶领域的「世界建模」理念成功嫁接到 AI 视频技术中,创造了 Odyssey 独特的实时交互式视频生成能力。 公司的董事会阵容堪称豪华,包括皮克斯联合创始人、前迪士尼动画工作室总裁 Ed Catmull,他的加入为公司带来了深厚的娱乐产业背景和创意内容制作经验。这一人事布局清晰地表明了 Odyssey 不仅想做一个技术工具,而是志在成为下一代娱乐内容平台的雄心。 在资本层面,Odyssey 已完成超过 2700 万美元的融资,主要投资方包括欧洲一线基金 EQT Ventures、谷歌风投 GV 以及 Samsung Next。这些顶级投资机构的背书,不仅为公司提供了充裕的研发资金,也为其带来了丰富的产业资源和战略支持。

  • Odyssey 的核心功能是将静态视频转化为可交互的实时 3D 世界,用户可以通过键盘、手柄等设备控制视角,在生成的内容中自由探索。产品最突出的技术特点是其实时性:每 40 毫秒生成一帧画面,用户输入后仅需 50 毫秒即可看到响应,实现了真正意义上的实时交互体验。与传统视频生成模型需要数分钟等待不同,Odyssey 让用户能够在视频世界中即时开始探索。 在输出时长方面,Odyssey 能够生成 5 分钟或更长时间的一致性视频流,突破了传统 AI 视频模型只能生成 10 秒片段的限制。系统支持图像提示和文本提示两种输入方式,用户可以基于现有图像或文字描述生成交互式世界。 从技术架构来看,Odyssey 采用的是世界模型路线,这与杨立昆(Yann LeCun)和李飞飞等 AI 领域权威推崇的「世界模型」理念一脉相承。与传统扩散模型逐帧生成的方式不同,Odyssey 模拟大语言模型预测下一个单词的思路,持续预测下一帧内容,形成连贯的世界演化。为解决 AI 视频领域常见的「画面漂移」问题——即随着时间推移画面逐渐失真变形——Odyssey 采用了「窄域预训练」策略,先在大量通用视频上培养基础理解,再针对特定环境微调以提高稳定性。 在产品定位上,Odyssey 明确表示将与创意专业人士合作而非取代他们。软件允许将生成的场景导出到 Unreal Engine、Blender、Adobe After Effects 等专业工具中进行手工编辑,这一定位有助于缓解创意产业对 AI 取代人类的焦虑。 当前产品仍处于早期阶段,存在明显的局限性。生成环境的视觉质量不够清晰,存在一定程度的模糊和失真;空间一致性不足,在场景中行走一段时间或转身后,周围环境可能出现明显变化;时间稳定性有待改善。这些「粗糙的边缘」是公司自己也承认的现实,公司表示正在针对更丰富的世界表示、提高时间稳定性、扩展动作空间等方面进行改进。

  • 截至目前,Odyssey 仍处于早期免费体验阶段,用户可以通过官网体验入口进行试用。但由于 GPU 供应有限,体验名额可能受到限制。 对于商业化路径,公司已开放 API 访问申请,开发者可以通过 Odyssey 开发者平台获取 API 接口。官网显示运营成本约为每用户小时 1-2 美元(基于 Nvidia H100 GPU 集群运行),这一成本结构决定了未来商业化定价需要在这一定价基础上进行调整。 从商业模式来看,Odyssey 的愿景是「将一切视频内容转化为交互式视频」,这一定位意味着其商业化路径可能包括:面向企业的 API 调用付费、面向创作者的专业版订阅、以及面向消费者的娱乐内容平台。鉴于团队深厚的自动驾驶背景,公司也可能将技术授权给机器人、智能导航等领域的应用场景。

  • 从技术演示和早期用户体验反馈来看,Odyssey 引发了较高的关注度。用户对其「走进视频」的创新交互形式普遍感到兴奋,多家科技媒体进行了专题报道。实时交互的能力被认为是革命性的突破,50 毫秒的响应延迟让「即时开始」的体验成为可能。 然而,早期体验也暴露了一些批评意见。核心问题集中在视觉质量上——生成的环境被反馈「模糊且失真」,与当前顶级 AI 视频工具(如 Runway、Pika)的清晰度存在差距。此外,场景稳定性是另一个被频繁提及的问题,有用户报告在场景中移动后,周围环境会出现「看起来突然不同」的情况。 从社交媒体讨论来看,技术爱好者和 AI 从业者对 Odyssey 普遍持积极态度,认为其代表了一个新的技术范式。但创意社区的反馈则更为复杂:一方面有人期待这一工具能提升创作效率,另一方面也担忧这是否会进一步冲击已经受到 AI 影响的创意工作岗位。

  • 主流科技媒体对 Odyssey 给予了高度关注。TechCrunch 将其描述为「让用户与流媒体视频进行交互」的创新产品,认为其开创了「交互式视频」的新概念。行业观察者普遍将 Odyssey 与 DeepMind、World Labs(由 AI 研究先驱李飞飞创立)、Microsoft 等正在开发世界模型的公司并列,认为这一技术方向正在成为 AI 视频领域的下一个热点。 从竞争格局来看,Odyssey 并非唯一追逐世界模型的公司。DeepMind 拥有强大的研发资源和人才储备,World Labs 背靠 AI 领域顶级学术背景,Microsoft 已发布了 AI 生成《雷神之锤 2》的演示,Decart 则开发了可实时游玩的《我的世界》AI 模拟。在这一竞争激烈的赛道上,Odyssey 的差异化优势在于其创始团队的自动驾驶背景带来的实时交互能力,以及皮克斯背景带来的娱乐产业视角。 专家分析认为,世界模型技术的成熟将深刻改变内容生产方式。行业预测,未来这一技术可应用于创建交互式媒体(游戏、电影)、运行真实模拟(如机器人训练环境)、以及娱乐、广告、教育、培训、旅游等多个领域。Odyssey 能否在竞争中脱颖而出,取决于其技术迭代速度和商业化能力。

  • Odyssey 面临的最大争议来自创意产业对 AI 取代人类的担忧。《连线》杂志的调查发现,动视暴雪等游戏工作室已经在使用 AI 技术削减成本和对抗人员流失,已出现大规模裁员。美国动画协会 2024 年的研究估计,未来几个月将有超过 10 万个美国电影、电视和动画工作岗位受到 AI 冲击。 尽管 Odyssey 声明其定位是「与创意专业人士合作」而非取代,但技术本身的中立性使其应用方式存在不确定性。如果这一技术被大规模用于降低内容生产成本,可能加剧创意产业的就业压力。 从技术风险角度,当前产品的成熟度不足是主要问题。视觉质量、空间一致性、时间稳定性等核心指标距离商业化应用标准还有明显差距。公司需要持续投入研发资源进行改进,这一过程可能需要数年时间。 此外,作为新兴技术,世界模型的监管框架尚不明确。如果 AI 生成内容涉及版权问题、虚假信息传播等风险,可能面临政策调整带来的不确定性。

  • Odyssey 目前最适合以下用户群体:AI 技术研究者和开发者可以通过 API 接入,探索世界模型的技术边界;创意内容创作者可以利用其生成能力作为灵感来源或草稿工具,并通过导出到专业软件进行精细化编辑;科技爱好者可以体验交互式视频的前沿概念。 对于普通消费者,当前阶段的免费体验值得一试,但需要管理预期——产品仍处于早期,视觉效果和稳定性与成熟产品有差距。 不太适合当前阶段使用 Odyssey 的场景包括:需要高质量商业视频内容的专业制作团队(建议等待技术成熟后再评估);对交互稳定性要求极高的应用场景;对画面清晰度有严格要求的用途。 替代方案方面,如果需求是传统 AI 视频生成,可以考虑 Runway、Pika Labs、Luma Dream Machine 等成熟产品;如果需要 3D 场景生成,World Labs 和 Microsoft 的相关产品值得关注;如果目标是游戏内实时 AI 生成,Decart 的 Minecraft AI 模拟是类似方向。

  • Odyssey 代表了 AI 视频生成领域的一个重要技术突破——从被动观看转向主动交互。虽然当前产品仍处于「粗糙的边缘」的早期阶段其实时流媒体输出和开放式交互能力让我们得以窥见下一代内容形式的雏影。公司创始团队兼具技术深度和产业视野,融资充足且有顶级顾问加持,为长期发展奠定了基础。然而,创意产业的就业焦虑、技术成熟度的挑战、以及日益激烈的市场竞争,都是 Odyssey 需要正视的风险。对于关注 AI 内容技术方向的从业者和爱好者,Odyssey 是一个值得持续关注的项目,但其承诺的「视频内容交互化」愿景何时能真正普及,还有待技术演进和市场检验。

用户评论

  • 头像
    Frances.Wilson_2023
    刚体验了一波 Odyssey,不得不说这个实时交互是真的香!50毫秒响应,玩起来基本感觉不到延迟,比之前用过的那些AI视频工具流畅太多了。

  • 头像
    Judy.Castillo
    和 Runway、Pika 比起来,Odyssey 的交互性确实是独一档,但画质还是有点拉胯,生成的场景有些模糊,希望后续能优化。

  • 头像
    暖阳574
    看演示视频觉得挺牛的,但实际用起来发现画面漂移问题还是存在,走一段时间后周围环境就变样了,稳定性有待提高。

  • 头像
    trueJohnniNewman_2024
    创始人是从 Wayve 出来的自动驾驶大牛,团队还有皮克斯的 Ed Catmull 坐镇,这背景是真的强,融资2700万美元不奇怪。

  • 头像
    Cha_inDex
    免费的体验名额太少了,GPU 供应有限,每次想用都要排队等,哭了。

  • 头像
    Nancy_Scott369211
    技术方向挺看好的,世界模型这条路线比传统扩散模型更有想象力,期待后续版本的表现。

  • 头像
    jaSUL
    用键盘 WASD 控制就能在生成的视频里漫游,有一种玩第一人称游戏的感觉,沉浸感拉满了。

  • 头像
    realHarveyBlack_pro
    40毫秒生成一帧是什么概念?人类眨眼都要100毫秒,AI这波真的是瞬间生成了,响应速度快到离谱。

  • 头像
    Andrew.Rogers007
    目前还在早期阶段,demo 确实比较粗糙,边缘有些模糊,但对于一个新领域来说已经很强了。

  • 头像
    AnthonyNielsen
    可以导出到 Unreal Engine、Blender 这些专业工具进行二次编辑,这点对创作者很友好。

  • 头像
    NObai
    刚在 Product Hunt 上看到 Odyssey-2 Max 上榜了,拿到了 123 个赞,确实很受关注。

  • 头像
    3yc_97u
    和美国那些世界模型项目比如 DeepMind、World Labs 相比,Odyssey 的实时交互能力是最大亮点。

  • 头像
    Elizabeth.KellyQ818
    能生成5分钟以上的长视频流,这点比只能生成10秒的竞品强太多了,场景持续性更好。

  • 头像
    JohnCox520
    支持图像和文本两种提示方式,用起来比较灵活,我比较喜欢用图像生成。

  • 头像
    Jacqueline.Vasquez16830
    运营成本每用户小时1-2美元,未来如果收费的话这个价格还算合理,就看体验值不值这个价了。

  • 头像
    Henry_ThompsonK
    看到知乎上有人讨论说这个可能会冲击创意产业岗位,确实有点担忧,做视频的要失业了?

  • 头像
    AKelly_2022
    用了窄域预训练策略来解决画面漂移,思路挺聪明的,实际效果也还行。

  • 头像
    IMyers_20231
    说实话现在这画质还达不到商业应用的标准也就是玩票性质但技术潜力很大值得持续关注。

  • 头像
    Brandon.HowardSr4
    看了 TechCrunch 的报道,说这技术可以应用于游戏、电影、教育、旅游等多个领域,前景广阔。

  • 头像
    SamanthaMurphy
    两位创始人一个来自 Wayve,一个来自 Voyage,都是自动驾驶领域的,做的却是视频生成,跨界的思路很妙。