
当人工智能(AI)还在二维对话框里与我们“文字交流”时,一家名为魔珐科技的公司已经将AI的触角伸向了更广阔的物理世界。5月30日,魔珐科技发布了其面向开发者的全球首个3D数字人开放平台“魔珐星云”,这一举动标志着AI交互的边界被彻底拓宽——从简单的“说话”,进化到了能够实时生成带有表情、手势和身体动作的3D数字人。这意味着,曾经只存在于科幻电影中的“具身智能”,正以前所未有的速度,走向普通开发者和消费者的手中。
“魔珐星云”平台的核心是一套革命性的3D多模态实时生成引擎。它能够接收任意输入的文本,并在极短的毫秒级时间内,同步生成与之匹配的语音、细微的面部表情以及连贯的肢体动作。更令人瞩目的是,这套引擎已经被精心适配到包括智能手机、平板电脑、车载系统乃至电视等多种终端设备上,实现了流畅的30帧/秒以上刷新率和低于100毫秒的延迟。这意味着,AI不再仅仅是冰冷的文字输出,而是能够“表演”,能够以更具象、更生动的方式与我们互动。
魔珐科技CTO李豫在发布会上揭示了这一技术突破的关键所在——“云-端拆分架构”。他解释说,这项技术巧妙地将计算量巨大的几何建模过程与相对轻量级的渲染指令分离开来。这样一来,终端设备只需接收经过高度压缩的动作数据流,就能实时驱动3D数字人。这种模式,就像我们观看在线视频一样,但其数据流量却比普通视频低了约十分之一。这意味着,开发者不再需要依赖昂贵的高性能GPU,一块市面上常见的百元级别入门级芯片,就足以在本地驱动这些栩栩如生的3D数字人,而云端则主要负责模型的推理和更新。
“魔珐星云”的落地应用,早已超越了简单的技术演示阶段。在上海中心的一家智慧酒店,星云SDK已经被集成到前台的平板电脑中,一个3D数字前台能够实时、准确地解答住客关于入住、发票开具以及周边餐饮等各种问题。在某省级政务大厅,一个基于该平台打造的手语版数字人导办员,为听障人士提供了无障碍的信息咨询服务,展现了AI在普惠性方面的巨大潜力。甚至在竞争激烈的招聘市场,星云平台与一家头部HR SaaS公司合作,推出了一款AI面试官。候选人完成语音回答后,数字面试官不仅能根据语义即时点头、记录,还能根据对话节奏自然地进行追问,极大地还原了真实面试的互动体验。
平台在商业模式上同样展现了开放与灵活。它采用了分层计费的策略:基础模型可以免费调用,而更高级的情绪控制功能或特定行业知识包,则支持按量付费。对于有更高定制化需求的企业,平台还提供一次性买断的私有化部署方案。据了解,平台上线当天,已有超过2000名开发者申请内测,这些开发者遍布教育、医疗、零售、物联网等多个重要赛道,预示着3D数字人技术的广泛应用前景。
展望未来,魔珐科技CEO柴金祥透露,公司计划将部分动作驱动接口进行开源,并与芯片厂商携手推出“星云Ready”认证。他们的宏大目标是:“一年内在10亿台中低端设备上实现‘星云’的运行,让具身智能成为我们与机器交互的默认方式,而非仅仅是高端展厅里令人惊叹的‘花瓶’。”这一愿景,无疑为AI的未来交互形态描绘了一幅激动人心的蓝图。