Soul开源数字人模型：14亿参数，眨眼间就能生成，还免费给你用

智享AI

封面图

想做一个会说话、会做表情的虚拟人，现在不用自己从头死磕代码了。昨天，Soul AI Lab 掏出了一个叫 SoulXFlashTalk 的开源模型，参数多达14亿，能在一眨眼的功夫里生成高清数字人画面，每秒可以出32帧，肉眼看起来丝滑得像真人聊天。
SoulXFlashTalk 最狠的是“亚秒级延迟”——你说一句话，它几乎同时就能让你看到虚拟人的反应。以前做这类数字人，要么卡顿，要么画质渣，现在这个模型把速度和画质都拉到了能用级别。而且，Soul 把项目页面、技术报告、源代码和模型权重一股脑全公开了，开发者下载就能用，不用再花巨资重新训练。
这已经是 Soul 第二次“交公粮”了。去年10月，他们开源过语音合成模型 SoulXPodcast，现在又补上了视觉部分，等于把“会说话的虚拟人”整套技术拆开让大家拿。Soul 官方说了，未来还会继续这么干——把更多AI技术开源，推着社交网络、在线教育、虚拟现实这些行业往前跑。
业内分析师觉得，这步棋对行业冲击不小。过去搞数字人得团队动辄几十人、烧钱几百万，现在一个开源模型拉低了门槛，小公司甚至个人开发者也能快速搭出个交互数字人。可以预判，接下来半年到一年，我们会看到大量基于此类模型的社交、教育、客服应用冒出来。谁先用好这些开源工具，谁就可能抢到下一波交互升级的红利。