
想象一下,你和AI对话,它不仅能理解你的话,还能瞬间生成一段和你描述场景相符的视频,甚至视频里的角色还能做出惟妙惟肖的动作,这不再是科幻电影里的情节。最近,人工智能领域再次迎来重磅消息:智谱AI在“多模态开源周”上,一口气开放了四项视频生成的核心技术,这就像给AI视频生成领域注入了一针强心剂,让原本就火热的赛道又添了一把新火。
这次智谱开源的技术,可以看作是为AI视频生成搭建的“四大件”。它们分别是:GLM-4.6V视觉理解模型,让AI能“看懂”世界;AutoGLM设备控制模型,赋予AI“动手”的能力;GLM-ASR语音识别模型和GLM-TTS语音合成模型,让AI能“听”得懂、说得溜。这几项技术合在一起,就好比给AI装上了“眼睛”、“耳朵”、“嘴巴”和“手”,是其迈向更高级多模态能力的关键一步,为理解和生成复杂内容打下了基础。
但更激动人心的,是紧随其后发布的四项专门针对视频生成难题的“绝招”。它们分别是SCAIL、RealVideo、Kaleido和SSVAE。
首先,SCAIL技术解决了视频生成中一个非常棘手的痛点:角色的动画。以往AI生成的角色动作常常显得僵硬、不自然,尤其是在复杂姿态的呈现上。SCAIL就像一位经验丰富的动画师,能够实现影视级别的角色动画生成,并且可以精确控制角色的每一个复杂姿态,确保角色在运动过程中身体结构的完整性,让AI“演”得更逼真。
其次,RealVideo则是一项能让AI视频生成“快起来”的革命性技术。想象一下,你和AI进行实时对话,它能立刻为你生成一段视频作为回应,这体验将是多么流畅。RealVideo做到了这一点,它是一个实时流式视频生成系统,将视频生成延迟缩短到惊人的2-3秒。这不仅大幅提升了生成效率,更重要的是,它让AI与人类之间的交互更加自然、连贯,不再是生硬的等待。
在多人互动的视频场景中,如何让每个角色都保持自己的特性,不发生“串戏”或“混淆”是另一个难点。Kaleido技术正是为此而生。它专注于多主体视频生成,能够确保视频中多个角色之间的一致性,避免了常见的特征混淆问题,让每个角色都“认得清自己”,保持独立而统一的风格。
最后,SSVAE技术则从根源上解决了大规模视频生成模型的训练成本问题。训练一个高质量的视频生成模型需要海量的计算资源和时间。SSVAE通过优化训练流程,显著提升了训练效率,能够在相同生成质量下,将模型的收敛速度提升三倍。这意味着未来训练更强大的视频生成模型将变得更加容易和经济。
智谱AI之所以选择开源这些技术,其核心目的是希望能够点燃整个AI视频生成社区的创新热情。通过提供坚实的工程方案和研究基础,他们希望开发者们能够在此之上,构建出更多令人惊叹的应用。这不仅仅是技术的分享,更是对未来通用人工智能(AGI)道路上的一次集体探索。随着这些底层技术的不断成熟和开放,我们有理由相信,AI在内容创作、虚拟现实、人机交互等领域的应用场景将迎来爆发式的增长。