
想象一下,你只需输入几个简单的指令,就能“导演”一部包含多场景切换、情节连贯的“迷你电影”,而且全程无需一行代码,甚至连剪辑师都不用请。这听起来像是科幻片里的情节,但中国科学技术大学和字节跳动联合推出的一个全新视频生成模型,正让这一幕变得触手可及。他们带来的 MoGA 模型,不仅能生成长达数分钟、分辨率达到480p、帧率为24fps的高清视频,更关键的是,它能直接处理多镜头切换,这标志着国内在长视频生成这一技术难题上,终于迈出了关键一步。
过去,提到AI生成视频,大家脑海里浮现的往往是几秒钟的动态图,或是零散的短片段。这是因为传统的视频生成模型,就像一个胃口极大的“大胃王”,处理长视频需要海量的计算资源和巨大的显存,一旦视频长度增加,算力消耗就会呈指数级增长,导致模型“吃不消”,最终只能生成短小精悍的内容。而本次发布的 MoGA 模型,其核心魅力就在于一种名为“模块化全局注意力”(Modular Global Attention)的全新底层算法。简单来说,它就像给AI视频生成装上了一个“聪明的大脑”,能够更高效、更有条理地处理信息。MoGA 通过优化结构,让模型可以一次性“吞下”并理解长达580K token的上下文信息,这相当于它能记住并关联更长的视频序列,从而大幅降低了计算成本。这意味着,AI不再是只能“碎片化”创作,而是能够“一口气”讲完一个有头有尾的故事,生成包含多个镜头转换、叙事流畅的“迷你短片”。
这项技术之所以令人兴奋,还在于它的“好用”和“易用”。MoGA 不仅在算法层面实现了突破,还具备高度的模块化和兼容性。它能够轻松地与当下最流行的AI加速库集成,比如FlashAttention、xFormers、DeepSpeed等等。这意味着,一旦技术成熟,开发者们就能利用这些现成的工具,更快速地训练模型,更快地生成视频。这种“开箱即用”的特性,极大地缩短了技术从实验室走向实际应用的周期。可以预见,这项技术在影视制作、广告创意、游戏CG动画,甚至是数字人内容生产等领域,都将大有可为,为内容创作注入新的活力。
在 OpenAI、Pika、Runway 等国内外大厂纷纷在短视频生成领域发力之际,中科大与字节跳动此次推出的 MoGA 模型,可以说是中国在长视频生成领域的一次有力回击。它不仅在技术上实现了从“秒拍”到“分钟级”的跨越,还在效率和可扩展性上展现出强大的潜力。这项成果的出现,无疑将为国内视频生成技术的发展注入强心剂,也让我们对中国在生成式AI领域的未来,充满了更高的期待。