AI语音革命！开源工具让实时对话零延迟

智享AI

封面图

法国人工智能实验室Kyutai近日宣布，其开发的文本转语音系统Kyutai TTS正式开源。这款工具让语音合成速度达到毫秒级响应，在L40S GPU支持下能同时处理32路语音请求，每段语音延迟低至350毫秒。这意味着当你说完最后一个字，AI的回应几乎同步响起。
语音合成的精准度同样令人惊喜。在英语和法语测试中，Kyutai TTS的单词错误率分别控制在2.82%和3.29%以内。更特别的是，它能精确标记每个单词的时间节点，为影视字幕同步、语音导航等场景提供技术支撑。系统还能还原特定人声特征，英语和法语的说话人相似度分别达到77.1%和78.7%。
目前该工具支持英法双语长文本转换，在教育领域可为视障人士提供高保真朗读，在媒体行业能快速生成播客内容。开发者可通过开源地址自由获取代码，项目采用CC-BY-4.0许可协议，允许任意修改和分发。研究团队正号召用户捐赠语音样本，以拓展更多语种和发音风格。
开源地址：https://kyutai.org/next/tts
当语音延迟突破350毫秒大关，人机对话的卡顿感正在消失。Kyutai TTS以开源模式降低技术门槛，其流式处理架构正推动智能助手、实时翻译等应用进入新阶段。随着全球开发者加入生态建设，语音交互技术的平民化进程已按下加速键。

理想你有吗

零延迟？上次用还卡着呢。