视频生成30倍速革命！开源模型在普通电脑上实时渲染高清片

智享AI

封面图

高清视频创作的门槛正在被打破。 Lightricks最新开源的LTX-Video13B模型，以130亿参数和多尺度渲染技术，实现了惊人的30倍于同类模型的生成速度。最令人瞩目的是，它能在消费级显卡（如RTX 4090）上流畅运行，输出接近1280×720分辨率、30帧/秒的视频，让专业级视频生成触手可及。
速度背后的核心在于其创新的多尺度渲染技术。 该技术并非一蹴而就生成高清画面，而是先快速勾勒出视频的"骨架"——低分辨率的运动轨迹与场景布局，再逐步"填充血肉"丰富细节。这种分层处理方式大幅减轻了硬件负担，使得渲染一段5秒视频仅需约2秒，所需内存也显著低于传统模型。其底层架构基于扩散变换器（DiT），并辅以内核优化和bfloat16数据格式，共同支撑了高效性能。无论是根据文本描述生成视频、用图像引导创作，还是对现有视频进行再加工，它都能胜任。
对创作者而言，LTX-Video13B提供了精细的控制能力。 它能出色理解动作连贯性、场景逻辑与镜头语言，生成内容细节丰富。用户可通过文本指令或参考图像，精准调整角色动作、切换场景，甚至设计复杂的多镜头组合，实现电影化的视觉效果。模型还支持视频延长（最长60秒）和动态风格替换——例如将实拍场景一键转化为动画风格，为短片制作、广告创意和社交媒体内容开辟了新玩法。
作为开源项目，LTX-Video13B的共享精神更具突破性。 模型代码已在GitHub和Hugging Face平台免费开放，允许开发者自由修改与定制。Lightricks配套提供了完整的训练工具LTX-Video-Trainer，支持全模型微调及LoRA训练，方便用户开发专属控制模块（如深度图、姿态检测）。针对资源有限的用户，官方还发布了优化版本：8位量化模型（ltxv-13b-fp8）显著降低内存需求，IC-LoRA Detailer增强细节表现。尤为重要的是，年收入低于1000万美元的初创企业可免费使用，大幅降低了创新门槛。模型兼容流行的ComfyUI工作流，新增的Looping Sampler节点支持生成任意长度且运动连贯的视频。
此次开源模型的发布，标志着AI视频生成技术实用化的重要一步。 多尺度渲染技术与对消费级硬件的深度优化，成功将专业级视频创作能力从昂贵的高性能服务器"搬"到了普通个人电脑上。结合开源社区的协作潜力，LTX-Video13B有望在影视预演、游戏素材、广告和教育内容制作等领域迅速落地。未来，Lightricks计划探索时间动态提示和多模态融合，进一步拓展创作边界。当工具不再成为限制，视频创作的想象力才能真正自由驰骋。

模型已集成至LTX Studio平台，开发者可通过官网或GitHub仓库获取资源并参与共建。

xiaoxing

30倍速高清？普通电脑不卡吗？

xiaoxing

30倍速革命？听着就假。

理想你有吗

总算能实时搞视频了，省事。

zhidaoge

30倍速革命？吹得天花乱坠，电脑别死机就不错了。