在2025年I/O开发者大会上,谷歌重磅推出新一代视频生成模型Veo 3,堪称其最强视频AI。这款模型首次引入背景音效生成功能,不仅能合成高质量画面,还能为场景自动匹配逼真的音效,如鸟鸣、街头喧嚣,甚至生成自然的人物对话,带来沉浸式体验。
Veo 3:视听一体,技术新巅峰
谷歌表示,Veo 3在物理模拟和口型同步方面表现卓越,生成的视频画面流畅、细节逼真,人物对话的唇部动作与语音高度匹配。目前,Veo 3仅对美国地区的Gemini Ultra订阅用户和Vertex AI企业用户开放,并已无缝集成到谷歌AI影视制作工具Flow中,为专业创作者提供强大支持。
创作灵活:从镜头控制到画面调整
Veo 3延续了Veo 2的强大功能,用户可提供人物、风格、场景或物体的图像参考,通过Flow实现精准的镜头控制,包括旋转、缩放以及从竖屏到横屏的格式转换。用户还能灵活添加或删除视频元素,轻松定制内容,满足多样化创作需求。

SynthID Detector:AI内容透明化
随着AI生成内容愈发逼真,辨别真伪成为挑战。谷歌为此推出SynthID Detector,用户可上传媒体文件检测是否包含SynthID水印——谷歌专为标记AI生成内容的工具。然而,目前并非所有图像生成模型都支持该水印,应用范围仍有待扩展。
持续关注:谷歌I/O亮点不断
谷歌I/O开发者大会仍在进行,AIbase预计更多创新技术将陆续揭晓。Veo 3的发布标志着谷歌在视频生成领域的又一突破,其视听一体的能力或将重塑内容创作生态。