AI视频生成要“提速”？智谱一口气开源四把“金钥匙”，让AI动起来、说出来、还能“演”

智享AI

封面图

想象一下，你和AI对话，它不仅能理解你的话，还能瞬间生成一段和你描述场景相符的视频，甚至视频里的角色还能做出惟妙惟肖的动作，这不再是科幻电影里的情节。最近，人工智能领域再次迎来重磅消息：智谱AI在“多模态开源周”上，一口气开放了四项视频生成的核心技术，这就像给AI视频生成领域注入了一针强心剂，让原本就火热的赛道又添了一把新火。
这次智谱开源的技术，可以看作是为AI视频生成搭建的“四大件”。它们分别是：GLM-4.6V视觉理解模型，让AI能“看懂”世界；AutoGLM设备控制模型，赋予AI“动手”的能力；GLM-ASR语音识别模型和GLM-TTS语音合成模型，让AI能“听”得懂、说得溜。这几项技术合在一起，就好比给AI装上了“眼睛”、“耳朵”、“嘴巴”和“手”，是其迈向更高级多模态能力的关键一步，为理解和生成复杂内容打下了基础。
但更激动人心的，是紧随其后发布的四项专门针对视频生成难题的“绝招”。它们分别是SCAIL、RealVideo、Kaleido和SSVAE。
首先，SCAIL技术解决了视频生成中一个非常棘手的痛点：角色的动画。以往AI生成的角色动作常常显得僵硬、不自然，尤其是在复杂姿态的呈现上。SCAIL就像一位经验丰富的动画师，能够实现影视级别的角色动画生成，并且可以精确控制角色的每一个复杂姿态，确保角色在运动过程中身体结构的完整性，让AI“演”得更逼真。
其次，RealVideo则是一项能让AI视频生成“快起来”的革命性技术。想象一下，你和AI进行实时对话，它能立刻为你生成一段视频作为回应，这体验将是多么流畅。RealVideo做到了这一点，它是一个实时流式视频生成系统，将视频生成延迟缩短到惊人的2-3秒。这不仅大幅提升了生成效率，更重要的是，它让AI与人类之间的交互更加自然、连贯，不再是生硬的等待。
在多人互动的视频场景中，如何让每个角色都保持自己的特性，不发生“串戏”或“混淆”是另一个难点。Kaleido技术正是为此而生。它专注于多主体视频生成，能够确保视频中多个角色之间的一致性，避免了常见的特征混淆问题，让每个角色都“认得清自己”，保持独立而统一的风格。
最后，SSVAE技术则从根源上解决了大规模视频生成模型的训练成本问题。训练一个高质量的视频生成模型需要海量的计算资源和时间。SSVAE通过优化训练流程，显著提升了训练效率，能够在相同生成质量下，将模型的收敛速度提升三倍。这意味着未来训练更强大的视频生成模型将变得更加容易和经济。
智谱AI之所以选择开源这些技术，其核心目的是希望能够点燃整个AI视频生成社区的创新热情。通过提供坚实的工程方案和研究基础，他们希望开发者们能够在此之上，构建出更多令人惊叹的应用。这不仅仅是技术的分享，更是对未来通用人工智能（AGI）道路上的一次集体探索。随着这些底层技术的不断成熟和开放，我们有理由相信，AI在内容创作、虚拟现实、人机交互等领域的应用场景将迎来爆发式的增长。

mengxin888

又来？这速度是赶着去投胎啊。