
苹果公司近日悄然发布了一款名为 STARFlow-V 的视频生成模型,这款模型在技术路径上选择了与当前业界主流的扩散模型(如 Sora、Veo)截然不同的“归一化流”技术。此举的目的是直击当前长视频生成的核心痛点——稳定性,并有望在视觉质量和生成效率上与扩散模型一较高下。
与扩散模型需要通过多次迭代、逐步“去噪”来生成视频的方式不同,STARFlow-V 另辟蹊径。它通过直接学习随机噪声与复杂视频数据之间的数学变换关系,实现了“一步到位”的生成。这不仅极大地提升了训练效率,也显著减少了多步生成过程中可能出现的累积性错误,从而为生成更稳定的长视频奠定了基础。虽然目前输出的分辨率为640×480像素,帧率为每秒16帧,但这并不妨碍其在长视频稳定性方面展现出的潜力。
STARFlow-V 的设计理念在于“化繁为简”,它能够灵活应对从文本生成视频、图像生成视频(将输入图像作为视频的起始帧),到视频编辑等多种任务。对于超出模型训练长度的视频,STARFlow-V 采用了“滑动窗口”技术,即在生成一个片段后,会保留最后几帧的上下文信息,然后继续生成下一个片段,以此来保证视频的连贯性。然而,在演示片段中,我们也能看到时间变化的多样性仍有待提升。
为了解决长序列生成中容易出现的逐帧错误累积问题,STARFlow-V 采用了双重架构设计:一部分负责跨帧的时间序列管理,确保视频的整体流畅性;另一部分则专注于单帧的细节优化,提升画面的清晰度和真实感。在训练过程中,苹果引入了适量的噪声来稳定优化过程,虽然这可能导致视频画面略带颗粒感,但随之而来的“因果去噪网络”会在保留运动一致性的前提下,有效去除残余噪声,达到一种平衡。
在数据训练方面,苹果可谓下了血本。STARFlow-V 在训练中使用了7000万对文本-视频数据,并辅以400万对文本-图像数据。它还巧妙地利用语言模型将视频描述扩展为九种不同的变体,以增强模型的理解和生成能力。经过数周的训练,模型的参数量从30亿增至70亿,并且苹果也在持续努力提高输出的分辨率和视频的时长。
尽管在 VBench 基准测试中,STARFlow-V 的得分(79.7)略低于一些顶尖的扩散模型,但在自回归模型领域,其表现已属优异,尤其在空间关系理解和人物行为刻画方面展现出显著优势。展望未来,苹果表示将继续聚焦于提升计算速度、优化模型架构,并特别强调在训练数据中融入更多物理准确性的考量。这预示着视频生成技术正朝着更真实、更稳定、更易于控制的方向迈进,而苹果的这一“异类”模型,无疑为这场技术竞赛注入了新的活力。