AI能否“拍”出电影？科大与字节联手，让分钟级长视频生成不再是奢望

智享AI

封面图

在生成式AI的赛道上，视频生成无疑是下一个引人瞩目的焦点。就在大家还在惊叹于几秒甚至十几秒的AI生成短片时，中国科学技术大学与字节跳动联合发布的一项最新成果，将这一想象的空间大幅拓展。他们联手打造的端到端长视频生成模型，已经能够直接生成长达数分钟、具备480p分辨率和24帧/秒流畅度的视频片段，更令人惊喜的是，它还能在其中自然地切换镜头，仿佛一位经验丰富的导演在调度画面。这标志着中国在这一前沿技术领域，尤其是在长视频生成这一核心难题上，取得了不小的突破。
这项突破的核心，在于一个名为MoGA（Modular Global Attention）的全新底层算法。你可以把它想象成一个专门为“拉长”视频而设计的“大脑”。传统上，让AI理解和生成长视频，就像让一个人记住一个超长的故事，并且还要在讲故事的过程中不断切换场景和视角，这在计算资源上是个巨大的挑战。模型需要处理的信息量呈指数级增长，算力消耗也随之飙升，因此大多数模型只能做到生成几秒钟的“动态图”或者简单的短片。MoGA的创新之处在于，它引入了一种全新的注意力机制，能够更高效地管理和利用信息，让模型能够一次性处理相当于580K个“信息单元”（token）的上下文。这意味着，它能像一个拥有超强记忆力的导演，一次性“看到”并理解整个影片的脉络，从而生成包含多个镜头、叙事连贯的“迷你短片”，而不是零散的片段。
这项技术的可贵之处还在于它的“实用性”。MoGA不仅在理论上解决了长视频生成的难题，还在工程实现上做了充分考量。它采用高度模块化的设计，可以直接与现有的各种高效计算加速库（比如FlashAttention、xFormers、DeepSpeed等）无缝集成。这意味着，这项技术不仅有学术上的前沿性，更有快速落地到实际应用的潜力。从影视后期制作、广告创意，到游戏动画、虚拟数字人内容生产，它的应用前景相当广阔。
回望整个生成式AI的发展历程，从文本到图像，再到如今的视频，技术的进步总是不断刷新我们的认知边界。当OpenAI、Pika、Runway等国际巨头还在不断优化短视频生成效果时，中国科大与字节跳动的这次联合发布，无疑为国内长视频生成技术注入了一针强心剂。它不仅在算法的核心创新、计算效率上展现出领先优势，更在可扩展性上为未来的深度发展铺平了道路。这或许预示着，在不久的将来，我们将在全球视频生成领域看到中国力量扮演更重要的角色。