点石成金，声画俱全：谷歌Veo 3.1让AI视频创作“玩”出新花样

智享AI

封面图

谷歌近日悄然升级了其备受瞩目的视频生成模型Veo，最新版本Veo 3.1不仅在视频画面质量和指令响应精度上更上一层楼，更是突破性地加入了音频生成能力，让AI创作的视频从此“有声有色”。这标志着AI视频生成技术正从单纯的视觉呈现，迈向更具沉浸感和完整性的多模态内容创作新阶段。
在Veo 3.1身上，最引人注目的升级莫过于音频的加入。此前，Veo 3在生成视频时，虽然可以实现参考图像驱动的角色生成、首尾帧生成中间内容，或是基于末尾帧扩展视频等“魔法”，但输出的往往是“哑剧”。而Veo 3.1则为所有这些编辑功能注入了“灵魂”，能够为生成的视频片段匹配上恰如其分的音效和声音元素，让画面不再孤单，极大地提升了内容的生动性和观众的代入感。想象一下，当AI为你描绘出壮丽的风景，再配上风声、鸟鸣，甚至是人物对话，这体验无疑是天壤之别。
除了“声”的突破，Veo 3.1在“画”的编辑和控制上也更加精细。新版本允许用户在现有视频中“点石成金”，添加全新的对象，并且系统能够智能地将其融入原有的画面风格之中，仿佛浑然天成。更令人期待的是，谷歌透露将在其视频编辑工具Flow中推出移除对象的功能。这意味着用户将拥有更强大的“魔法棒”，不仅可以“变出”新事物，还能“移除”不想要的元素，对视频进行更自由、更精细的后期调整。此前，Veo 3已经展现了其在视频编辑方面的潜力，而Veo 3.1的精细化编辑能力，无疑是把AI视频创作的门槛进一步降低，也为专业创作者提供了更强大的工具。
Veo 3.1的落地应用也将更加广泛。它将集成到谷歌的多个平台，包括用户熟悉的视频编辑器Flow（自5月上线以来，用户已在该平台上创作了超过2.75亿个视频）、AI助手Gemini应用程序，以及面向开发者提供的Vertex AI和Gemini API接口。这意味着无论是普通用户想要快速制作一段有趣的短视频，还是专业开发者想要将强大的AI视频生成能力集成到自己的产品中，都能从中找到合适的解决方案。
此次Veo 3.1的更新，清晰地勾勒出了AI视频生成技术发展的两条主线：一是生成质量的持续“内卷”，画面更逼真，对用户指令的理解更精准；二是编辑能力的“精细化”操作，从整体生成到局部修改、对象增删，AI正在变得越来越“听话”和“好用”。音频能力的加入，更是弥补了当前AI视频工具普遍存在的短板，让AI生成的内容在完整性和沉浸感上迈出了重要一步。
当然，AI视频生成技术仍处于一个高速迭代的阶段。像视频内容的连贯性、物理规律的精确还原、复杂场景的驾驭能力等，都是各家模型正在持续攻克的难题。Veo 3.1在音频与画面的同步质量、对象融合的自然度等方面的实际表现，还需要经过更广泛的用户检验。但毋庸置疑的是，随着Veo 3.1的登场，AI正在以前所未有的速度，将我们对视频创作的想象力，一步步变为现实。

mengxin888

又是谷歌，就不能有点新活儿吗！

马老师

又来新花样，这AI视频是真没完没了了！

我是鱼

又一个AI视频生成，感觉没啥新鲜的。