
大模型应用越来越火,但背后的算力成本一直是头疼事。今天,一个叫ZCube的组网架构正式落地:它让GPU推理速度提升了15%,同时把交换机等网络设备的支出砍掉了三分之一。
这项技术由智谱、驭驯网络和清华大学联合研发,成果刚在顶级会议ACM SIGCOMM2025上发表,5月21日就投入到了GLM-5.1 coding大模型的生产环境中。测试显示,在GPU、软件都不变的前提下,首Token时延(就是用户等待第一个字的时间)还降低了40.6%。简单来说,就是既省钱又提速,还更流畅。
为什么能做到?因为大模型推理有个特点:信息传输很不均衡。传统架构用好几层交换机堆叠,就像一条多车道高速路,虽然总带宽够宽,但某些路段动不动就堵车,数据包得排长队。ZCube则直接废掉了最顶层的交换机,改成两排交换机扁平相连,再给每张网卡配两个端口,灵活选择走哪条路。这样每个GPU之间都有专属的最优通道,不会互相抢道,流量自然顺畅。
当然,改动这么大,布线是个大麻烦。驭驯网络团队用自动化工具边走边调,慢慢把规则重写了一遍,安全升级了整个千卡集群。目前这个集群已经稳定运行了两周以上。
这次落地标志着智算基础设施不再只管“通不通”,而是开始按模型流量来设计网络。未来,把网络拓扑、通信库和调度策略拧成一股绳,才能让每个token产得更快,让大模型的调用成本真正降下来。