
法国人工智能实验室Kyutai近日宣布,其开发的文本转语音系统Kyutai TTS正式开源。这款工具让语音合成速度达到毫秒级响应,在L40S GPU支持下能同时处理32路语音请求,每段语音延迟低至350毫秒。这意味着当你说完最后一个字,AI的回应几乎同步响起。
语音合成的精准度同样令人惊喜。在英语和法语测试中,Kyutai TTS的单词错误率分别控制在2.82%和3.29%以内。更特别的是,它能精确标记每个单词的时间节点,为影视字幕同步、语音导航等场景提供技术支撑。系统还能还原特定人声特征,英语和法语的说话人相似度分别达到77.1%和78.7%。
目前该工具支持英法双语长文本转换,在教育领域可为视障人士提供高保真朗读,在媒体行业能快速生成播客内容。开发者可通过开源地址自由获取代码,项目采用CC-BY-4.0许可协议,允许任意修改和分发。研究团队正号召用户捐赠语音样本,以拓展更多语种和发音风格。
开源地址:https://kyutai.org/next/tts
当语音延迟突破350毫秒大关,人机对话的卡顿感正在消失。Kyutai TTS以开源模式降低技术门槛,其流式处理架构正推动智能助手、实时翻译等应用进入新阶段。随着全球开发者加入生态建设,语音交互技术的平民化进程已按下加速键。