大模型推理提速15%，网络成本省下33%！这个新架构怎么做到的

智享AI

封面图

大模型应用越来越火，但背后的算力成本一直是头疼事。今天，一个叫ZCube的组网架构正式落地：它让GPU推理速度提升了15%，同时把交换机等网络设备的支出砍掉了三分之一。
这项技术由智谱、驭驯网络和清华大学联合研发，成果刚在顶级会议ACM SIGCOMM2025上发表，5月21日就投入到了GLM-5.1 coding大模型的生产环境中。测试显示，在GPU、软件都不变的前提下，首Token时延（就是用户等待第一个字的时间）还降低了40.6%。简单来说，就是既省钱又提速，还更流畅。
为什么能做到？因为大模型推理有个特点：信息传输很不均衡。传统架构用好几层交换机堆叠，就像一条多车道高速路，虽然总带宽够宽，但某些路段动不动就堵车，数据包得排长队。ZCube则直接废掉了最顶层的交换机，改成两排交换机扁平相连，再给每张网卡配两个端口，灵活选择走哪条路。这样每个GPU之间都有专属的最优通道，不会互相抢道，流量自然顺畅。
当然，改动这么大，布线是个大麻烦。驭驯网络团队用自动化工具边走边调，慢慢把规则重写了一遍，安全升级了整个千卡集群。目前这个集群已经稳定运行了两周以上。
这次落地标志着智算基础设施不再只管“通不通”，而是开始按模型流量来设计网络。未来，把网络拓扑、通信库和调度策略拧成一股绳，才能让每个token产得更快，让大模型的调用成本真正降下来。