智谱GLM-5.1高速版API，每秒输出400个token，打破“快等于小”魔咒

智享AI

封面图

今天，智谱扔出一枚重磅炸弹：GLM-5.1高速版API正式上线，输出速度飙到每秒400个token。这个数字直接登顶全球大模型API速度榜，把一众对手甩在身后。更狠的是，它没牺牲性能——过去行业里都说，跑得快就得砍能力，智谱偏不信这个邪。
这个代号“GLM-5.1-highspeed”的模型，专为眼光刁钻的企业客户准备。你让它写代码、做实时语音回复、或者处理高频商业决策，它都能做到几乎无延迟。想象一下，AI在你说话的同时就给出回应，像跟真人聊天一样快，而不是傻等几秒。
怎么做到的？智谱的GLM团队和TileRT团队联手，把模型从里到外做了大手术。他们甩掉了传统的动态调度，重写了核心推理路径，让单张显卡的吞吐量翻倍；还用动态批处理技术，把高并发时的等待时间掐到极致。最后，在底层基础设施上做协同优化，确保每秒400个token不是实验室里的花架子，而是能稳定跑在生产线上的真本事。
三个层面的深度优化，让这款模型彻底打破了“快等于小”的行业诅咒。以前你要么选个小模型跑得快但笨，要么选个大模型聪明但慢，现在智谱把两者捏在了一起。目前，它已经在智谱的MaaS平台上向部分企业开放，那些对响应速度极其敏感的场景——比如AI编程助手、实时客服、高频交易分析——可以直接用上。
这次突破，让我想起手机圈里“大屏和续航不可兼得”的老话，后来有人用优化技术打破了。智谱干的事，本质上也一样：不是靠堆硬件暴力提速，而是靠系统级的精细手术刀。这意味着，未来大模型的速度天花板还会被继续捅破，而“能力越强速度越慢”的旧规则，可能很快就要被扫进历史垃圾桶了。