
想做一个会说话、会做表情的虚拟人,现在不用自己从头死磕代码了。昨天,Soul AI Lab 掏出了一个叫 SoulXFlashTalk 的开源模型,参数多达14亿,能在一眨眼的功夫里生成高清数字人画面,每秒可以出32帧,肉眼看起来丝滑得像真人聊天。
SoulXFlashTalk 最狠的是“亚秒级延迟”——你说一句话,它几乎同时就能让你看到虚拟人的反应。以前做这类数字人,要么卡顿,要么画质渣,现在这个模型把速度和画质都拉到了能用级别。而且,Soul 把项目页面、技术报告、源代码和模型权重一股脑全公开了,开发者下载就能用,不用再花巨资重新训练。
这已经是 Soul 第二次“交公粮”了。去年10月,他们开源过语音合成模型 SoulXPodcast,现在又补上了视觉部分,等于把“会说话的虚拟人”整套技术拆开让大家拿。Soul 官方说了,未来还会继续这么干——把更多AI技术开源,推着社交网络、在线教育、虚拟现实这些行业往前跑。
业内分析师觉得,这步棋对行业冲击不小。过去搞数字人得团队动辄几十人、烧钱几百万,现在一个开源模型拉低了门槛,小公司甚至个人开发者也能快速搭出个交互数字人。可以预判,接下来半年到一年,我们会看到大量基于此类模型的社交、教育、客服应用冒出来。谁先用好这些开源工具,谁就可能抢到下一波交互升级的红利。