告别“秒拍”，国产AI也能“拍”出分钟级长视频了

智享AI

封面图

想象一下，你只需输入几个简单的指令，就能“导演”一部包含多场景切换、情节连贯的“迷你电影”，而且全程无需一行代码，甚至连剪辑师都不用请。这听起来像是科幻片里的情节，但中国科学技术大学和字节跳动联合推出的一个全新视频生成模型，正让这一幕变得触手可及。他们带来的 MoGA 模型，不仅能生成长达数分钟、分辨率达到480p、帧率为24fps的高清视频，更关键的是，它能直接处理多镜头切换，这标志着国内在长视频生成这一技术难题上，终于迈出了关键一步。
过去，提到AI生成视频，大家脑海里浮现的往往是几秒钟的动态图，或是零散的短片段。这是因为传统的视频生成模型，就像一个胃口极大的“大胃王”，处理长视频需要海量的计算资源和巨大的显存，一旦视频长度增加，算力消耗就会呈指数级增长，导致模型“吃不消”，最终只能生成短小精悍的内容。而本次发布的 MoGA 模型，其核心魅力就在于一种名为“模块化全局注意力”（Modular Global Attention）的全新底层算法。简单来说，它就像给AI视频生成装上了一个“聪明的大脑”，能够更高效、更有条理地处理信息。MoGA 通过优化结构，让模型可以一次性“吞下”并理解长达580K token的上下文信息，这相当于它能记住并关联更长的视频序列，从而大幅降低了计算成本。这意味着，AI不再是只能“碎片化”创作，而是能够“一口气”讲完一个有头有尾的故事，生成包含多个镜头转换、叙事流畅的“迷你短片”。
这项技术之所以令人兴奋，还在于它的“好用”和“易用”。MoGA 不仅在算法层面实现了突破，还具备高度的模块化和兼容性。它能够轻松地与当下最流行的AI加速库集成，比如FlashAttention、xFormers、DeepSpeed等等。这意味着，一旦技术成熟，开发者们就能利用这些现成的工具，更快速地训练模型，更快地生成视频。这种“开箱即用”的特性，极大地缩短了技术从实验室走向实际应用的周期。可以预见，这项技术在影视制作、广告创意、游戏CG动画，甚至是数字人内容生产等领域，都将大有可为，为内容创作注入新的活力。
在 OpenAI、Pika、Runway 等国内外大厂纷纷在短视频生成领域发力之际，中科大与字节跳动此次推出的 MoGA 模型，可以说是中国在长视频生成领域的一次有力回击。它不仅在技术上实现了从“秒拍”到“分钟级”的跨越，还在效率和可扩展性上展现出强大的潜力。这项成果的出现，无疑将为国内视频生成技术的发展注入强心剂，也让我们对中国在生成式AI领域的未来，充满了更高的期待。

7月抬头

哦，终于能拍长点儿了，这进度也是够慢的！

铁锤妹妹

哟，这技术进步是快，但我还等着它能拍出好故事呢！