
高清视频创作的门槛正在被打破。 Lightricks最新开源的LTX-Video13B模型,以130亿参数和多尺度渲染技术,实现了惊人的30倍于同类模型的生成速度。最令人瞩目的是,它能在消费级显卡(如RTX 4090)上流畅运行,输出接近1280×720分辨率、30帧/秒的视频,让专业级视频生成触手可及。
速度背后的核心在于其创新的多尺度渲染技术。 该技术并非一蹴而就生成高清画面,而是先快速勾勒出视频的"骨架"——低分辨率的运动轨迹与场景布局,再逐步"填充血肉"丰富细节。这种分层处理方式大幅减轻了硬件负担,使得渲染一段5秒视频仅需约2秒,所需内存也显著低于传统模型。其底层架构基于扩散变换器(DiT),并辅以内核优化和bfloat16数据格式,共同支撑了高效性能。无论是根据文本描述生成视频、用图像引导创作,还是对现有视频进行再加工,它都能胜任。
对创作者而言,LTX-Video13B提供了精细的控制能力。 它能出色理解动作连贯性、场景逻辑与镜头语言,生成内容细节丰富。用户可通过文本指令或参考图像,精准调整角色动作、切换场景,甚至设计复杂的多镜头组合,实现电影化的视觉效果。模型还支持视频延长(最长60秒)和动态风格替换——例如将实拍场景一键转化为动画风格,为短片制作、广告创意和社交媒体内容开辟了新玩法。
作为开源项目,LTX-Video13B的共享精神更具突破性。 模型代码已在GitHub和Hugging Face平台免费开放,允许开发者自由修改与定制。Lightricks配套提供了完整的训练工具LTX-Video-Trainer,支持全模型微调及LoRA训练,方便用户开发专属控制模块(如深度图、姿态检测)。针对资源有限的用户,官方还发布了优化版本:8位量化模型(ltxv-13b-fp8)显著降低内存需求,IC-LoRA Detailer增强细节表现。尤为重要的是,年收入低于1000万美元的初创企业可免费使用,大幅降低了创新门槛。模型兼容流行的ComfyUI工作流,新增的Looping Sampler节点支持生成任意长度且运动连贯的视频。
此次开源模型的发布,标志着AI视频生成技术实用化的重要一步。 多尺度渲染技术与对消费级硬件的深度优化,成功将专业级视频创作能力从昂贵的高性能服务器"搬"到了普通个人电脑上。结合开源社区的协作潜力,LTX-Video13B有望在影视预演、游戏素材、广告和教育内容制作等领域迅速落地。未来,Lightricks计划探索时间动态提示和多模态融合,进一步拓展创作边界。当工具不再成为限制,视频创作的想象力才能真正自由驰骋。