
在刚刚落幕的2025世界人工智能大会(WAIC)上,生数科技凭借其最新发布的Vidu Q1“参考生视频”功能,为视频制作领域投下了一颗重磅炸弹。这项创新技术不仅极大地简化了以往耗时耗力的视频制作流程,更在核心的商业化应用上,攻克了长期困扰视频生成模型的主体一致性难题,预示着AI在内容创作领域正迈入一个全新阶段。
长久以来,视频制作的起点往往是细致入微的分镜脚本,每一个镜头、每一个动作都需要提前规划。然而,生数科技的Vidu Q1“参考生视频”功能,却大胆地将这一传统流程“一脚踢开”。现在,用户只需准备好想要在视频中出现的角色、道具或场景的参考图片,再配上简洁的文字描述,AI就能直接生成一段完整的视频素材。这意味着,从“分镜草图到最终成片”的漫长旅程,被大幅缩短,甚至可以被简化为“参考图+提示词→视频生成→后期剪辑→成片”的几步关键操作。想象一下,只需上传诸葛亮、丘吉尔和拿破仑的形象,并告知AI他们在会议室讨论,系统便能直接生成一段三人同框、有模有样的对话视频,这在过去是难以想象的。
更值得关注的是,Vidu Q1在商业化落地方面取得了关键突破——它有效解决了视频生成过程中最棘手的“主体一致性”问题。生数科技表示,这项新功能最多可以同时保持七个主体的一致性,这已经能够满足绝大多数商业创作的需求。生数科技CEO骆怡航也指出,这种全新的通用创作模式,将为广告、动漫、影视、文旅、教育等众多行业带来革命性的改变,有望实现从传统线下拍摄到线上AI创意生产的根本性转变。
支撑这一突破的,是生数科技在技术上的深耕。他们采用了先进的U-ViT架构,并巧妙地融合了扩散模型和Transformer技术,对算法进行了深度优化。Vidu模型本身具备强大的多模态理解能力,这使得它在视频生成方面表现出色。骆怡航也强调,公司始终以产业应用为导向,并未将“理解与生成一体化”作为首要目标,而是更专注于为客户提供高质量、易于落地的内容生成解决方案,因为“行业客户更关心的是内容效果,而不是复杂的技术路线”。
除了在视频生成领域的革新,生数科技也并未停下探索的脚步。在WAIC期间,他们还与清华大学联合推出了具身智能模型Vidar。这项合作基于“视频大模型+具身智能”的思路,旨在实现低成本、少样本的机器人动作泛化。骆怡航解释说,视频模型与具身智能在本质上都处理的是时空信息,因此可以共享一套输入决策逻辑。通过利用Vidu视频大模型,并辅以少量机器人实际操作的视频进行训练,就能将虚拟视频中的动作转化为具体的机械臂指令,有效解决了传统视觉语言模型(VLA)在数据获取上的瓶颈。
目前,生数科技仍将提升视频生成能力作为最高优先级,而具身智能则被视为一个重要的持续探索方向。但毋庸置疑的是,这项技术为具身智能领域打开了新的商业应用前景,也为AI在现实世界中的应用提供了更多想象空间。
总而言之,生数科技Vidu Q1的发布,不仅仅是又一个AI工具的问世,它更像是一次对传统视频制作范式的彻底颠覆。通过“参考生视频”功能,AI正以前所未有的方式赋能内容创作者,让创意输出的门槛大幅降低,效率显著提升。未来,我们有理由相信,AI将不仅仅是内容的生产者,更会成为创意过程中不可或缺的合作伙伴,深刻地改变我们观看和创作视频的方式。