Google Veo

谷歌DeepMind推出的AI视频生成模型，支持文本/图像生成视频和原生音频

图像生成视频生成 Google

https://deepmind.google/technologies/veo

前往官网

深度报告

Google Veo 是谷歌旗下 DeepMind 部门开发的最先进的 AI 视频生成模型，于 2024 年 5 月首次发布，并在 2025 年持续迭代升级。Veo 代表了当前 AI 视频生成技术的最高水平，其最新版本 Veo 3.1（2025年10月发布）引入了革命性的原生音频生成功能，标志着 AI 视频生成正式进入"音画同步时代"。该产品支持文本到视频、图像到视频等多种生成模式，具备专业的创作控制功能，目前通过 Gemini、Google Flow、Google Vids 等多平台提供服务。
Google Veo 诞生于谷歌在生成式 AI 领域的重要战略布局。2024 年 5 月 14 日，谷歌在美国 I/O 开发者大会上正式发布了 Veo 视频生成模型，宣称其能够根据文本或图像输入生成超过 60 秒的高质量视频。Veo 的发布标志着谷歌正式进军 AI 视频生成领域，与 OpenAI Sora 形成直接竞争。 2025 年是 Veo 快速迭代的一年。2025 年 5 月，Google I/O 2025 大会上发布 Veo 3，带来更强的物理理解能力和原生音频生成功能。2025 年 10 月 15 日，发布 Veo 3.1，增加了场景扩展、首尾帧控制等高级功能。Veo 基于谷歌强大的生成式 AI 技术栈构建，集成了 DeepMind 在强化学习和多模态模型方面的技术积累、Gemini 大语言模型的语义理解能力，以及谷歌在视频处理和音频生成领域的底层技术。
Veo 3.1 提供丰富的核心功能。基础生成包括文本到视频、图像到视频、文本到视频加音频三种模式。高级创作功能包括 Ingredients to Video（通过参考图像引导视频生成）、Scene Extension（片段延长为更长视频）、First and Last Frame（首尾帧之间创建流畅过渡）。编辑功能包括 Outpainting（扩展原始画面边界）、Add Object（引入新对象）、Remove Object（移除不需要的对象）。精细控制功能包括 Character Controls（角色身体、面部和声音动画）、Motion Controls（定义对象精确运动路径）、Camera Controls（控制镜头推拉摇移）。 Veo 3.1 输出规格为 1080p 和 4K 分辨率，标准视频时长 8 秒，Veo 3.1 支持最长 168 秒扩展。用户可通过 Gemini、Flow、Google Vids、Google AI Studio、Vertex AI、Gemini API 等多平台访问 Veo。 Veo 3.1 在行业基准测试中表现优异。在 MovieGenBench 文本到视频基准测试中，Veo 3.1 在整体偏好度、文本对齐和视觉质量方面均获得最高评分。图像转视频方面，VBench 基准测试证明其在整体偏好度和文本对齐方面领先。物理逼真度和音频视频同步方面均表现最优。
Veo 3.1 API 提供三档定价方案。Veo 3.1 Lite：720p 为 $0.05/秒，1080p 为 $0.08/秒，不支持 4K。Veo 3.1 Fast：720p 和 1080p 均为 $0.15/秒，4K 为 $0.35/秒。Veo 3.1 Pro：各分辨率均为 $0.40-$0.60/秒。
用户对 Veo 的整体反馈较为积极。核心优势包括原生音频生成（业界首个实现音画同步的视频生成模型）、物理理解能力（对真实世界物理规律的理解表现出色）、提示遵循（对复杂文本提示的解析能力强）、多平台整合（与 Gemini、Google 生态系统深度整合）。改进空间包括生成时长限制（标准仍限制在 8 秒）、生成一致性（部分场景下存在主体一致性保持问题）、内容审核（存在一定概率的内容被拦截）。
在与 OpenAI Sora、Runway Gen-4 等竞品的对比中，Veo 3.1 在视频质量方面表现优秀，原生音频生成功能领先，多平台生态整合优秀，但生成时长仍有局限。
Veo 存在一定的技术风险，包括 Deepfake 风险（高保真视频生成技术可能被滥用于制作虚假视频）、内容审核（尽管有安全过滤器，仍存在一定概率的有害内容生成风险）、就业影响（AI 视频生成可能对传统视频制作、广告行业产生冲击）。谷歌采取的安全措施包括 SynthID 水印（默认在生成的视频中添加 AI 水印）、内容检测（集成 SynthID Detector）、安全评估（对输出内容进行多层安全检查）、限制措施（阻止有害请求的执行）。
Veo 适用于专业视频创作者、内容创作者、企业营销团队、开发者以及 AI 爱好者。使用建议方面，入门用户建议从 Gemini 免费版开始体验；成本优化建议选择合适的分辨率；质量提升需要使用详细、具体的提示词并合理利用参考图和首尾帧功能；合规使用需要了解并遵守平台使用政策。
Google Veo 代表了当前 AI 视频生成技术的最高水平。2025年 Veo 3 的发布，特别是原生音频生成功能的引入，标志着 AI 视频生成正式进入"音画同步时代"，这是该领域的重要里程碑。核心优势包括原生音画同步生成、强大的物理理解能力、丰富的创作控制功能、多平台生态整合、三档定价方案满足不同需求。需要注意生成时长仍有局限、存在一定的内容审核限制、需要关注 AI 伦理和 deepfake 风险。作为视频生成领域的标杆产品，Google Veo 为专业创作者和企业用户提供了强大的 AI 视频创作工具。

用户评论

Bruce.Vasquez_Pro5

—

爱了爱了

Ralph_MillerJr

—

画质惊艳到我了

xOğuzhanArslanoğlu_dev

—

太强了！

VincentHart76

—

生成速度比以前快多了，点赞！

OLmag

—

用Veo做产品展示视频效果很好，客户很满意。电影感的构图和光影处理确实专业级别。

AaronJenkins_77

—

视频质量确实很高，但生成等待时间有点长。

DE_mil

—

试用了几天，场景延伸功能很强大。音乐视频和品牌广告都可以用，性价比比Sora高很多。

GameFiGamerNielsen11

—

API调用体验还不错。

TCastillo

—

音画同步功能很实用，省去了配音步骤。

CApow

—

效果不错，但价格有点贵。

Susan.Barnes369

—

竖屏生成太方便了，适配抖音。

AGutierrezX_266

—

对比了多个AI视频工具，Veo在真实感和电影感方面确实更胜一筹。但物理模拟还是有点问题。

SPphi

—

深度使用了一个月，总结一下：优点是视频质量高、电影感强、生成速度稳定；缺点是时长限制8秒、价格偏贵、音频控制不够灵活。总体来说，适合专业创作者使用。

StevenJackson168

—

作为营销从业者，我最看重的是成片率和可控性。Veo的参考图功能让我们能锁定品牌视觉元素，这在商业应用中非常重要。虽然价格接近1800元每月，但产出的视频质量确实对得起这个价格。唯一希望改进的是能支持更长的单次生成时长。

DIrog_eth

—

用Veo做游戏预告片素材，效率提升很多。环境音效和动作场景都能一次性生成，很方便。

RaymondTaylor

—

电商视频创作者的真实体验：用了两个月Veo 3.1，服装带货视频的转化率明显提升。AI生成的试穿效果比预期自然，而且支持竖屏输出直接适配抖音。最满意的是参考图功能，能保证模特形象的一致性。不过需要注意，有时候会生成一些奇怪的细节，需要人工筛选。总体来说，是目前用过最稳定的AI视频工具。

Maria_Reed_2024

—

从技术角度深度分析Veo 3.1：作为从业者，我认为这是目前最接近商用的AI视频模型。核心优势包括：精准的提示词遵循能力，大幅减少迭代次数；电影级构图和光影处理，明显优于竞品；原生音频生成解决了视频制作的最后一块短板。局限在于：物理模拟仍存在不稳定情况；8秒单次生成限制对复杂叙事构成挑战；高端计划价格门槛较高。

MAtay

—

耗时一个月、投入超过万元进行六大主流AI视频模型横评，结论是：当前已不是选一个模型站队的时代，而是多模型组合使用的时代。按场景切模型，才能兼顾质量、成本与出片效率。关于Veo 3.1的核心评价：优势在于参考图锁定能力强、竖屏原生适配、出单率高；劣势在于时长较短、仍有AI感、更适合商业短视频。适合场景是视频带货、产品展示、品牌竖屏广告。在性价比方面，Veo 3.1高质量模式生成8秒视频约需0.20至0.25美元，相比Sora 2单条约0.30至0.40美元的成本具有明显优势。

Google Veo

深度报告

用户评论

相关链接

同类产品