如何用1块钱跑出5块的效果？DeepSeek V3开源炼金术

ZhiXiangWeiLai

梁文锋亲自参与的DeepSeek最新论文发布了！

这次，团队公布了DeepSeek-V3如何在训练和推理过程中解决"硬件瓶颈"的方法。

DeepSeek-V3仅使用2048块H800就能达到与超大规模集群（数万块GPU）相当的训练效果，这主要归功于四项创新技术：

内存优化
多头潜在注意力（MLA）
计算优化
混合专家模型（MoE）与FP8低精度训练
通信优化
多层网络拓扑与低延迟设计
推理加速
多token预测（MTP）

让我们深入了解这四项优化是如何发挥作用的。

软硬件协同的优化设计

在训练大模型的道路上，一直存在着"三座大山"。

首先是内存不够用。

现代大语言模型（如GPT、Llama）规模日益庞大，需要的存储空间激增。特别是它们使用的"注意力机制"会产生大量临时数据（KV Cache），占用大量显卡内存。

然而，高性能显存的容量增长速度太慢，每年仅增加不到50%，远远跟不上需求。

其次是计算效率低。

训练超大规模模型需要海量计算资源，传统"稠密模型"（如Llama-3）每次计算都需要激活所有参数，导致计算成本极高。

虽然"混合专家模型"（MoE）效率更高，但它需要复杂的通信机制（如专家间数据传输），对网络带宽要求极高。

最后是通信速度慢。

多GPU并行训练时需要持续的数据交换，这个过程会产生延迟。即使使用高速网络（如InfiniBand），这种延迟仍会降低整体训练速度，尤其在处理长文本或需要实时响应时更为明显。

这篇论文就致力于解决这些关键问题。

△DeepSeek-V3的基本架构

首先，DeepSeek团队对内存进行了优化，采用多头潜在注意力（MLA）来减少"键值缓存"（KV Cache）的内存占用。

传统模型中每个注意力头都需要独立缓存键值对，而MLA通过投影矩阵将所有头的键值对压缩成一个更小的"潜在向量"，只需缓存这一个向量。

与其他模型（如LLaMA-3、Qwen-2.5）相比，DeepSeek-V3的KV缓存大小每token仅需70 KB，仅为传统方法的⅐到¼，大幅降低显存压力，特别适合长文本处理。

在计算优化方面，DeepSeek-V3采用了MoE和FP8低精度训练。

MoE将模型参数分成多个"专家"，每次只激活部分专家处理输入，显著减少实际计算量。

DeepSeek-V3采用这一思路，虽然总参数量达6710亿，但每次仅激活370亿参数，训练成本仅为同规模稠密模型的⅒（如Llama-3.1训练成本是其近10倍）。

正因为推理时激活参数少，DeepSeek-V3可在消费级GPU（如售价1万美元的显卡）上运行，每秒生成近20个token，适合个人或中小型企业使用。

FP8低精度训练不同于传统的BF16（16位浮点）训练，可将内存占用和计算量减半，同时通过"精细量化"（如分块压缩）保持精度。

DeepSeek-V3首次在开源大模型中成功应用FP8训练，将训练成本降低50%，精度损失仅小于0.25%。

在通信方面，DeepSeek-V3也实现了重要优化。

例如多层胖树网络（Multi-Plane Fat-Tree）将集群网络分为多个"平面"，每个GPU连接到独立的网络平面，避免不同任务的流量冲突（如训练与存储通信分离）。

与传统三层网络相比，这种两层结构使成本降低40%，延迟减少30%，并支持上万GPU规模扩展。

在推理时，DeepSeek-V3将"注意力计算"与"专家间通信"分阶段执行，通过流水线并行（DualPipe）实现GPU计算与数据传输同步进行，避免空闲等待，使吞吐量提升近1倍。

在推理加速方面，DeepSeek-V3采用了多token预测（MTP）技术。

不同于传统模型每次只能生成1个token，MTP通过轻量级子模型并行预测多个候选token（如一次预测2-3个），经验证后选择最优结果。

实验显示，生成速度提升1.8倍，每秒生成token数从10个增至18个，同时保持80%-90%的准确率。

以上就是DeepSeek-V3通过硬件与模型协同设计，实现高效训练和推理的关键技术。

除此之外，这篇论文对未来工作也具有重要启发。

从"被动适配"到"主动设计"

了解当前AI硬件瓶颈后，我们可以对下一代AI硬件提出期待。

DeepSeek团队从五个维度展望未来，希望从过去的"被动适配"逐步过渡到"主动设计"。

1、低精度计算支持

针对计算效率低的问题，下一代AI硬件需要提高累积寄存器精度，支持FP32累加或可配置精度（如训练用FP32，推理用FP16），以在不同模型训练和推理需求中实现性能与准确性的平衡。

硬件还需要支持本地细粒度量化，使张量核心能直接接收缩放因子（scaling factors），在计算单元内部完成量化和反量化，减少数据搬运。

此外，建议支持LogFMT（对数浮点格式），在相同比特宽度下提供更高精度，并提升编解码速度。

2、扩展与扩展融合

针对传输速度慢的问题，建议未来硬件将节点内（纵向扩展）和节点间（横向扩展）的通信整合到统一框架中，通过集成专用网络流量管理协处理器实现。

这种设计可以降低软件复杂性并最大化带宽利用率，包括：

统一网络适配器：设计连接统一扩展和缩减网络的NIC（网络接口卡）或I/O芯片，使网卡直接支持所有通信需求。
专用通信协处理器：将数据搬运、Reduce、类型转换等任务卸载到专用硬件，释放GPU SM资源。
智能传输功能：自动转发数据，支持广播和汇总操作，并自动处理数据顺序问题。
动态带宽分配：支持流量优先级调度（如EP通信>KV缓存传输）。
CPU-FPU高速互联：使用NVLink连接CPU与GPU，进一步优化节点内通信。

3、网络拓扑优化

针对网络卡顿问题，建议以太网供应商开发专门针对RDMA工作负载优化的RoCE交换机，移除不必要的以太网功能。

同时需要优化路由策略，支持自适应路由（Adaptive Routing，AR），通过动态多路径数据包发送显著提升网络性能。

还可以通过虚拟输出队列（VOQ）改进流量隔离和拥塞控制机制，有效隔离不同流量，避免拥塞。

4、内存系统优化

针对AI模型上下文记忆能力不足的问题，可采用3D堆叠DRAM技术，将内存芯片如三明治般叠放在计算芯片上。

或者借鉴Cerebras的方案，直接在晶圆上进行集成工程，最大化内存带宽和计算密度，提升硬件记忆容量。

另一方案是在硬件存储层部署稀疏注意力加速器，让硬件直接协助记忆整理，只保留关键信息。

5、鲁棒性与容错

针对大规模训练中网络闪断、GPU故障导致任务失败的问题，期待下一代硬件能支持链路层重试和快速故障切换，在中断后快速切换到备用路线。

还可引入基于信用的流控（CBFC）和智能拥塞控制算法（如RTT-CC），防止网络集体瘫痪。

简言之，下一代AI硬件需要在计算速度（低精度计算+本地细粒度量化）、通信效率（直连网络+智能路由）、记忆能力（3D内存+近存计算）和系统稳定性（自愈网络）等方面全面提升，以更好地支持大模型训练，实现高效扩展。