美团“长猫”视频模型来了：AI能“看懂”世界，还能一口气“吐”出5分钟长视频

智享AI

封面图

在AI生成内容（AIGC）领域，视频生成无疑是最具挑战性的前沿之一。近日，美团放出了一枚重磅炸弹——LongCat-Video，一款全新的视频生成模型。这不仅仅是一个新的AI工具，更像是美团在尝试让AI真正“看见”和“理解”我们所处的真实世界，并能根据这份理解，生成连贯、高质量的视频内容。如果说之前的AI视频生成大多是“短平快”的片段拼凑，那么LongCat-Video的目标，就是打破时长限制，一口气生成长达5分钟的稳定视频。
不止是“画”视频，更是“模拟”世界
LongCat-Video的野心不止于简单的文本或图像转视频。它基于先进的Diffusion Transformer（DiT）架构，这意味着它在生成视频时，并非简单地堆砌像素，而是试图模拟现实世界的物理规律和场景逻辑。这种“理解”能力，让它在处理诸如文本生成视频、图像生成视频以及视频续写等任务时，表现得游刃有余。
最令人眼前一亮的是，LongCat-Video实现了任务的“闭环”，无需为不同任务单独适配模型。比如，当你给它一段文字描述时，它能生成720p、30fps的高清视频，不仅精准捕捉文本语义，还能在视觉上呈现出令人信服的效果。而从图像生成视频，它则能严格保持源图像的特征，并让动态过程符合物理直觉。
“长视频”的难题，LongCat-Video怎么解？
以往AI视频生成最大的痛点之一，就是难以生成长视频，即使勉强生成，也常常伴随着画面质量下降、色彩漂移、逻辑断裂等问题。LongCat-Video直接将矛头对准了这一难题。它能够根据多帧前的画面内容进行“续写”，这意味着它能实现真正的长视频连贯生成，并且可以稳定输出长达5分钟的视频，而质量损失却微乎其微。
这背后，是美团在技术上的多重攻坚。模型采用了块稀疏注意力（Block Sparse Attention）和条件Token缓存（Conditional Token Caching）等机制，极大地提升了处理长序列数据的效率，解决了长视频生成在时长和质量上的矛盾。同时，在处理高分辨率和高帧率视频时，LongCat-Video也通过一系列优化策略，实现了推理速度和生成质量的最佳平衡。
不止于技术，更是创作者的“新引擎”
从技术指标上看，LongCat-Video在经过严格的内部和公开基准测试后，已展现出领先于开源领域的通用性能。这意味着它不仅在实验室里表现出色，在实际应用中也具备强大的潜力。
对于内容创作者而言，LongCat-Video的出现，无疑为长视频的创作打开了新的大门。过去需要耗费大量时间和精力才能完成的视频制作，现在或许可以通过AI高效完成。这不仅能极大地降低创作门槛，还能激发更多创意，让视频内容生产进入一个更具想象力的时代。
LongCat-Video的发布，标志着AI在理解和模拟真实世界方面又迈出了坚实的一步。我们有理由相信，随着这类技术的不断成熟，AI将成为我们理解世界、创造内容不可或缺的强大伙伴。

追风科技

又一个AI模型，跟风倒是挺快，除了折腾点啥又能干嘛！

ai行业大佬

这AI还能整出这么长的视频？有点意思！

buhuiyu

又来个能看懂世界的，这AI是真闲得慌。

xingchendahai

这AI又进步了，以后视频制作是真方便了。

毛头小伙

又一个AI视频生成，真是没完没了了。