
谷歌近日悄然升级了其备受瞩目的视频生成模型Veo,最新版本Veo 3.1不仅在视频画面质量和指令响应精度上更上一层楼,更是突破性地加入了音频生成能力,让AI创作的视频从此“有声有色”。这标志着AI视频生成技术正从单纯的视觉呈现,迈向更具沉浸感和完整性的多模态内容创作新阶段。
在Veo 3.1身上,最引人注目的升级莫过于音频的加入。此前,Veo 3在生成视频时,虽然可以实现参考图像驱动的角色生成、首尾帧生成中间内容,或是基于末尾帧扩展视频等“魔法”,但输出的往往是“哑剧”。而Veo 3.1则为所有这些编辑功能注入了“灵魂”,能够为生成的视频片段匹配上恰如其分的音效和声音元素,让画面不再孤单,极大地提升了内容的生动性和观众的代入感。想象一下,当AI为你描绘出壮丽的风景,再配上风声、鸟鸣,甚至是人物对话,这体验无疑是天壤之别。
除了“声”的突破,Veo 3.1在“画”的编辑和控制上也更加精细。新版本允许用户在现有视频中“点石成金”,添加全新的对象,并且系统能够智能地将其融入原有的画面风格之中,仿佛浑然天成。更令人期待的是,谷歌透露将在其视频编辑工具Flow中推出移除对象的功能。这意味着用户将拥有更强大的“魔法棒”,不仅可以“变出”新事物,还能“移除”不想要的元素,对视频进行更自由、更精细的后期调整。此前,Veo 3已经展现了其在视频编辑方面的潜力,而Veo 3.1的精细化编辑能力,无疑是把AI视频创作的门槛进一步降低,也为专业创作者提供了更强大的工具。
Veo 3.1的落地应用也将更加广泛。它将集成到谷歌的多个平台,包括用户熟悉的视频编辑器Flow(自5月上线以来,用户已在该平台上创作了超过2.75亿个视频)、AI助手Gemini应用程序,以及面向开发者提供的Vertex AI和Gemini API接口。这意味着无论是普通用户想要快速制作一段有趣的短视频,还是专业开发者想要将强大的AI视频生成能力集成到自己的产品中,都能从中找到合适的解决方案。
此次Veo 3.1的更新,清晰地勾勒出了AI视频生成技术发展的两条主线:一是生成质量的持续“内卷”,画面更逼真,对用户指令的理解更精准;二是编辑能力的“精细化”操作,从整体生成到局部修改、对象增删,AI正在变得越来越“听话”和“好用”。音频能力的加入,更是弥补了当前AI视频工具普遍存在的短板,让AI生成的内容在完整性和沉浸感上迈出了重要一步。
当然,AI视频生成技术仍处于一个高速迭代的阶段。像视频内容的连贯性、物理规律的精确还原、复杂场景的驾驭能力等,都是各家模型正在持续攻克的难题。Veo 3.1在音频与画面的同步质量、对象融合的自然度等方面的实际表现,还需要经过更广泛的用户检验。但毋庸置疑的是,随着Veo 3.1的登场,AI正在以前所未有的速度,将我们对视频创作的想象力,一步步变为现实。