
AI大模型领域的竞争愈发激烈,而这一次,蚂蚁集团将目光投向了“思考”本身。10月14日,蚂蚁集团正式发布了其万亿参数的思考模型Ring-1T,并将其权重和训练方法全面开源。这不仅仅是一个参数规模的升级,更是在模型能力和通用性上的一次重要飞跃。Ring-1T在预览版的基础上,通过强化学习的深度打磨,显著提升了自然语言推理能力,并在多项关键任务中展现出均衡而强大的表现,甚至在极具挑战的数学竞赛中,达到了国际奥林匹克竞赛(IMO)银牌的水平,这在开源模型领域堪称一项创举。
从“预览”到“实力派”:Ring-1T的进化之路
Ring-1T的诞生并非一蹴而就。在此前的9月30日,蚂蚁集团已经发布了预览版Ring-1T-preview。而此次正式发布的Ring-1T,则是在此基础上,进一步强化了大规模可验证奖励强化学习(RLVR)的训练。这一过程,如同给模型进行了一次“深度思考”的训练,极大地激发了其潜藏的自然语言推理能力。同时,通过人类反馈强化学习(RLHF)的引入,模型的通用性也得到了显著完善,使其在各种任务榜单上的表现更加游刃有余,更加均衡。
挑战极限:数学竞赛中的“黑马”表现
真正让人眼前一亮的,是Ring-1T在复杂推理能力上的突破,特别是其在数学领域的表现。为了检验和提升这一能力,蚂蚁团队大胆地将Ring-1T置于了更高难度的挑战——2025年国际数学奥林匹克(IMO)的赛题之中。他们构建了一个名为AWorld的多智能体框架,让Ring-1T仅凭纯粹的自然语言推理来解决问题。
令人惊叹的实验结果显示,Ring-1T在首次尝试中,便独立解出了IMO2025的第1、3、4、5题,这已经相当于IMO银牌选手的实力。更值得关注的是,在第三次尝试中,Ring-1T对一道几何证明题(第2题)给出了接近满分的证明过程。而在许多顶尖大模型纷纷“折戟”的第六题中,Ring-1T最终将答案收敛到了“4048”,尽管这与正确答案2112仍有差距,但这一结果却与业界领先的Gemini 2.5 Pro相同,显示出其强大的推理潜力。
通用性不打折:通用能力与专业领域并驾齐驱
作为一款“思考模型”,Ring-1T并未在通用能力上有所牺牲。在衡量模型是否符合人类偏好的“人类偏好对齐”测试Arena-Hard V2中,Ring-1T以81.59%的成功率位居开源模型之首,表现非常接近GPT-5-Thinking(High)的82.91%。而在面向严谨的医疗问答场景HealthBench测评中,Ring-1T更是以最高分夺得了开源领域的最佳成绩。这种在通用能力和专业领域表现上的均衡,是Ring-1T区别于许多单一能力模型的关键所在。
攻克行业难题:Ring-1T背后的技术创新
万亿参数模型的训练并非易事,其中最大的挑战之一便是“训推精度差异”,即模型在训练和推理阶段由于实现细节的不同,导致精度不一致,甚至训练崩溃。蚂蚁集团为此开发了自研的“棒冰(icepop)”算法。这项技术通过带掩码的双向截断,有效地将训练-推理分布的差异“冻结”在较低水平,从而保证了长序列、长周期的训练过程稳定不崩溃。
同时,为了应对万亿参数模型强化学习训练的高要求,蚂蚁还推出了高性能强化学习系统ASystem(包含已开源的AReaL框架)。该系统在万亿参数模型的显存管理和训推权重交换方面进行了精细优化,实现了单机显存碎片秒级回收和权重零冗余交换,将大规模强化学习训练变成了一件“日常”工作。
Ring-1T模型本身也沿用了Ling2.0架构的1T base模型,该架构集成了高度稀疏的MoE(混合专家)架构、低专家激活比、FP8混合精度以及MTP(模型并行)等多种高效训练与推理的技术。在后训练阶段,通过LongCoT-SFT + RLVR + RLHF的多阶段训练,模型的复杂推理能力、指令跟随能力以及创意写作能力都得到了显著提升。
展望:AI思考的未来已来
Ring-1T的发布,标志着蚂蚁集团在万亿思考模型领域迈出了坚实的第一步,并且选择以开源的方式回馈社区。这不仅为全球开发者提供了强大的工具和研究基础,也预示着AI在理解、推理和解决复杂问题方面,正朝着更深层次的“思考”能力迈进。随着Ring-1T的加入,百灵大模型已正式步入2.0阶段,形成了覆盖160亿到万亿参数的完整产品矩阵,展现出蚂蚁在AI大模型领域持续探索的决心和能力。未来,我们可以期待AI在更多未知领域展现出令人惊叹的“思考”智慧。