
全球开源模型竞赛的榜首位置迎来新霸主。Kimi团队最新发布的万亿参数大模型Kimi K2,凭借320亿激活参数和三项关键技术突破,在性能测试中直追GPT-4.5等顶级闭源模型。其秘密武器"重述法"训练术,甚至实现了单轮训练超越传统十轮训练的效果。
这份新鲜出炉的技术报告揭示,Kimi K2的突破始于基础架构创新。研发团队弃用传统Adam优化器,自主研发的MuonClip优化器在预训练阶段展现出惊人稳定性——完整消化了15.5万亿token的训练材料而未出现数据损耗。配合这项突破的,是覆盖多领域的工具数据合成流水线,为模型构建出逼近真实场景的演武场。
最引人注目的当属独创的"重述法"训练术。与传统数据重复训练不同,该方法要求将数学公式、专业知识等复杂内容,改写成不同表述形式的学习笔记。当处理三角函数推导时,模型可能先接触标准证明过程,再学习生活化的比喻解释。这种知识重构训练使模型准确率产生跃升:经重写的数据训练一轮,效果竟超越原始数据训练十轮。
在模型调优阶段,工程师设置了精密的奖励机制。通过监督微调结合强化学习,模型在完成代码生成、逻辑推理等任务时,能根据预设标准自我修正。配合动态调整的温度衰减策略,最终输出的文本兼具准确性与流畅度。
支撑这场训练革命的,是NVIDIA H800构建的高性能计算集群。高带宽特性保障了海量参数的高效传输,使万亿级参数的训练成为可能。目前该模型已在Hugging Face等开源平台释出,开发者可体验其接近GPT-4.5的文本理解与代码生成能力。
当开源模型在效率竞赛中不断刷新纪录,Kimi K2的"知识重述"训练范式或许将引发新一轮技术迭代。其报告末尾的测试数据暗示:经过重述法处理的生物学资料,模型理解速度提升近40%。这种通过改变知识呈现形式来提升学习效率的方法,正在改写AI训练的底层逻辑。