Google Veo
谷歌DeepMind推出的AI视频生成模型,支持文本/图像生成视频和原生音频
深度报告
-
Google Veo 是谷歌旗下 DeepMind 部门开发的最先进的 AI 视频生成模型,于 2024 年 5 月首次发布,并在 2025 年持续迭代升级。Veo 代表了当前 AI 视频生成技术的最高水平,其最新版本 Veo 3.1(2025年10月发布)引入了革命性的原生音频生成功能,标志着 AI 视频生成正式进入"音画同步时代"。该产品支持文本到视频、图像到视频等多种生成模式,具备专业的创作控制功能,目前通过 Gemini、Google Flow、Google Vids 等多平台提供服务。
-
Google Veo 诞生于谷歌在生成式 AI 领域的重要战略布局。2024 年 5 月 14 日,谷歌在美国 I/O 开发者大会上正式发布了 Veo 视频生成模型,宣称其能够根据文本或图像输入生成超过 60 秒的高质量视频。Veo 的发布标志着谷歌正式进军 AI 视频生成领域,与 OpenAI Sora 形成直接竞争。 2025 年是 Veo 快速迭代的一年。2025 年 5 月,Google I/O 2025 大会上发布 Veo 3,带来更强的物理理解能力和原生音频生成功能。2025 年 10 月 15 日,发布 Veo 3.1,增加了场景扩展、首尾帧控制等高级功能。Veo 基于谷歌强大的生成式 AI 技术栈构建,集成了 DeepMind 在强化学习和多模态模型方面的技术积累、Gemini 大语言模型的语义理解能力,以及谷歌在视频处理和音频生成领域的底层技术。
-
Veo 3.1 提供丰富的核心功能。基础生成包括文本到视频、图像到视频、文本到视频加音频三种模式。高级创作功能包括 Ingredients to Video(通过参考图像引导视频生成)、Scene Extension(片段延长为更长视频)、First and Last Frame(首尾帧之间创建流畅过渡)。编辑功能包括 Outpainting(扩展原始画面边界)、Add Object(引入新对象)、Remove Object(移除不需要的对象)。精细控制功能包括 Character Controls(角色身体、面部和声音动画)、Motion Controls(定义对象精确运动路径)、Camera Controls(控制镜头推拉摇移)。 Veo 3.1 输出规格为 1080p 和 4K 分辨率,标准视频时长 8 秒,Veo 3.1 支持最长 168 秒扩展。用户可通过 Gemini、Flow、Google Vids、Google AI Studio、Vertex AI、Gemini API 等多平台访问 Veo。 Veo 3.1 在行业基准测试中表现优异。在 MovieGenBench 文本到视频基准测试中,Veo 3.1 在整体偏好度、文本对齐和视觉质量方面均获得最高评分。图像转视频方面,VBench 基准测试证明其在整体偏好度和文本对齐方面领先。物理逼真度和音频视频同步方面均表现最优。
-
Veo 3.1 API 提供三档定价方案。Veo 3.1 Lite:720p 为 $0.05/秒,1080p 为 $0.08/秒,不支持 4K。Veo 3.1 Fast:720p 和 1080p 均为 $0.15/秒,4K 为 $0.35/秒。Veo 3.1 Pro:各分辨率均为 $0.40-$0.60/秒。
-
用户对 Veo 的整体反馈较为积极。核心优势包括原生音频生成(业界首个实现音画同步的视频生成模型)、物理理解能力(对真实世界物理规律的理解表现出色)、提示遵循(对复杂文本提示的解析能力强)、多平台整合(与 Gemini、Google 生态系统深度整合)。改进空间包括生成时长限制(标准仍限制在 8 秒)、生成一致性(部分场景下存在主体一致性保持问题)、内容审核(存在一定概率的内容被拦截)。
-
在与 OpenAI Sora、Runway Gen-4 等竞品的对比中,Veo 3.1 在视频质量方面表现优秀,原生音频生成功能领先,多平台生态整合优秀,但生成时长仍有局限。
-
Veo 存在一定的技术风险,包括 Deepfake 风险(高保真视频生成技术可能被滥用于制作虚假视频)、内容审核(尽管有安全过滤器,仍存在一定概率的有害内容生成风险)、就业影响(AI 视频生成可能对传统视频制作、广告行业产生冲击)。谷歌采取的安全措施包括 SynthID 水印(默认在生成的视频中添加 AI 水印)、内容检测(集成 SynthID Detector)、安全评估(对输出内容进行多层安全检查)、限制措施(阻止有害请求的执行)。
-
Veo 适用于专业视频创作者、内容创作者、企业营销团队、开发者以及 AI 爱好者。使用建议方面,入门用户建议从 Gemini 免费版开始体验;成本优化建议选择合适的分辨率;质量提升需要使用详细、具体的提示词并合理利用参考图和首尾帧功能;合规使用需要了解并遵守平台使用政策。
-
Google Veo 代表了当前 AI 视频生成技术的最高水平。2025年 Veo 3 的发布,特别是原生音频生成功能的引入,标志着 AI 视频生成正式进入"音画同步时代",这是该领域的重要里程碑。核心优势包括原生音画同步生成、强大的物理理解能力、丰富的创作控制功能、多平台生态整合、三档定价方案满足不同需求。需要注意生成时长仍有局限、存在一定的内容审核限制、需要关注 AI 伦理和 deepfake 风险。作为视频生成领域的标杆产品,Google Veo 为专业创作者和企业用户提供了强大的 AI 视频创作工具。
用户评论
-
Bruce.Vasquez_Pro5—爱了爱了 -
Ralph_MillerJr—画质惊艳到我了 -
xOğuzhanArslanoğlu_dev—太强了! -
VincentHart76—生成速度比以前快多了,点赞! -
OLmag—用Veo做产品展示视频效果很好,客户很满意。电影感的构图和光影处理确实专业级别。 -
AaronJenkins_77—视频质量确实很高,但生成等待时间有点长。 -
DE_mil—试用了几天,场景延伸功能很强大。音乐视频和品牌广告都可以用,性价比比Sora高很多。 -
GameFiGamerNielsen11—API调用体验还不错。 -
TCastillo—音画同步功能很实用,省去了配音步骤。 -
CApow—效果不错,但价格有点贵。 -
Susan.Barnes369—竖屏生成太方便了,适配抖音。 -
AGutierrezX_266—对比了多个AI视频工具,Veo在真实感和电影感方面确实更胜一筹。但物理模拟还是有点问题。 -
SPphi—深度使用了一个月,总结一下:优点是视频质量高、电影感强、生成速度稳定;缺点是时长限制8秒、价格偏贵、音频控制不够灵活。总体来说,适合专业创作者使用。 -
StevenJackson168—作为营销从业者,我最看重的是成片率和可控性。Veo的参考图功能让我们能锁定品牌视觉元素,这在商业应用中非常重要。虽然价格接近1800元每月,但产出的视频质量确实对得起这个价格。唯一希望改进的是能支持更长的单次生成时长。 -
DIrog_eth—用Veo做游戏预告片素材,效率提升很多。环境音效和动作场景都能一次性生成,很方便。 -
RaymondTaylor—电商视频创作者的真实体验:用了两个月Veo 3.1,服装带货视频的转化率明显提升。AI生成的试穿效果比预期自然,而且支持竖屏输出直接适配抖音。最满意的是参考图功能,能保证模特形象的一致性。不过需要注意,有时候会生成一些奇怪的细节,需要人工筛选。总体来说,是目前用过最稳定的AI视频工具。 -
Maria_Reed_2024—从技术角度深度分析Veo 3.1:作为从业者,我认为这是目前最接近商用的AI视频模型。核心优势包括:精准的提示词遵循能力,大幅减少迭代次数;电影级构图和光影处理,明显优于竞品;原生音频生成解决了视频制作的最后一块短板。局限在于:物理模拟仍存在不稳定情况;8秒单次生成限制对复杂叙事构成挑战;高端计划价格门槛较高。 -
MAtay—耗时一个月、投入超过万元进行六大主流AI视频模型横评,结论是:当前已不是选一个模型站队的时代,而是多模型组合使用的时代。按场景切模型,才能兼顾质量、成本与出片效率。关于Veo 3.1的核心评价:优势在于参考图锁定能力强、竖屏原生适配、出单率高;劣势在于时长较短、仍有AI感、更适合商业短视频。适合场景是视频带货、产品展示、品牌竖屏广告。在性价比方面,Veo 3.1高质量模式生成8秒视频约需0.20至0.25美元,相比Sora 2单条约0.30至0.40美元的成本具有明显优势。