中国移动“九天”大模型3.0：性能“狂飙”，幻觉“清零”，核心技术全面开源

智享AI

封面图

在2025世界人工智能大会的舞台上，中国移动不仅展示了其在人工智能领域的深厚积淀，更以“九天”基础大模型3.0的重磅发布，掀起了一场技术革新的浪潮。这一次，“九天”3.0不再是简单的迭代升级，而是实现了一次全面的“性能跃迁”和“能力重塑”。最令人瞩目的，是其在关键评测中展现出的全球领先实力，以及在多项核心技术上的突破，尤其是“幻觉清零”的承诺，为大模型的落地应用注入了强大的信心。更重要的是，中国移动此次采取了开放共赢的策略，将多项模型和核心技术开源，旨在构建一个繁荣的AI产业生态。
“九天众擎”语言大模型：万亿级MoE架构下的推理“超能力”
此次“九天”3.0最引人注目的升级之一，无疑是“九天众擎”语言大模型。它采用了可扩展至万亿参数级别的MoE（Mixture of Experts，混合专家）架构，这是一种在效率和性能上都极具潜力的前沿技术。想象一下，就像一个由众多顶尖专家组成的团队，在处理复杂问题时，能够根据任务的性质，精准调用最擅长的“专家”来完成，从而大幅提升效率和准确性。
得益于海量的15万亿token多阶段预训练数据和一套严谨的全流程治理体系，“九天众擎”的推理能力实现了质的飞跃。通过其创新的113个领域 × 53项能力二维分级后训练框架，并结合动态强化学习策略，模型的复杂推理能力提升了惊人的35%。在多项权威评测中，“九天众擎”的表现堪称“炸裂”。在GPQA-Diamond评测中，以77.67分的成绩位列全球第二，甚至超越了DeepSeekR1和Qwen3等知名模型；而在ArenaHard V1.0评测中，更是以67.2分登顶全球第一。BFCL V3评测中也达到了68分的高分。
更值得称道的是，在性能大幅提升的同时，“九天众擎”在可控生成能力上同样下足了功夫。通过内置精确流程等技术细节，它在专业场景下实现了“零幻觉”，这对于需要高度准确性和可靠性的应用来说，无疑是解决了长期存在的痛点，甚至能胜任沉浸式角色演绎等对模型“真实性”要求极高的任务。
在此基础上，中国移动还推出了多款基于“九天众擎”的专项模型，进一步拓展了大模型的应用边界。例如，“九天代码大模型”通过两阶段持续训练技术，能够支持代码生成、注释生成、单元测试生成以及智能代码问答等多种任务，覆盖了Python、Java、JS等十余种主流编程语言，并在EvalPlus、MHPP等代码生成榜单上屡获佳绩。“九天数学大模型”则在短思考和长思考模式下均达到了业界SOTA（State-of-the-Art，业界最新）水平，在多项指标上超越了同等参数量的Qwen2.5Math、DeepSeek Math等模型。
“九天善智”多模态大模型：让AI“看懂”并“创作”世界
除了强大的语言理解和生成能力，“九天善智”多模态大模型则在视觉领域展现了令人惊叹的实力。它引入了复杂的时空建模技术、流匹配的图片视频渐进式联合训练，以及端到端局部可控的注意力机制，这些创新技术的融合，使得模型在理解和生成图像、视频方面都有了质的飞跃。
通过融合多模态理解信息和联合图文交织数据训练，“九天善智”能够更精准地感知文本指令和输入图像视频的细微差别。这意味着它不仅能生成高质量的视觉内容，更能进行多轮对话式的高精度编辑操作，极大地提升了视觉生成的灵活性和便利性。比如，在图片生成过程中，用户可以通过多轮对话，精确地修改图片的局部区域，比如更换文字、调整背景，甚至添加新的元素，让AI创作的过程更加“听话”和高效。
在理解能力方面，“九天善智”同样表现出色。在图像理解任务中，模型在MMStar、HallusionBench和OCRBench等评测中均取得了业界领先的高分。在视频理解方面，它在Videomme和MVbench等任务中的表现也优于Qwen2-VL和InternVideo2等模型。这意味着“九天善智”不仅能“看懂”静态的图像，更能“理解”动态的视频内容，为视频分析、内容审核等领域带来了新的可能性。
开放开源：中国移动构建AI产业新生态
更具前瞻性的是，中国移动在此次发布会上宣布了其开放开源战略，将多项模型及核心技术向全社会开放。这不仅仅是中国移动回馈社区的举动，更是其推动AI产业共同发展、构建繁荣生态的决心体现。
此次开源的内容相当丰富，包括：

“九天数童”结构化数据大模型：提供了JT-DA-8B模型及后续版本，支持模型权重、微调代码、推理代码等下载，为结构化数据分析和处理提供了强大的工具。
“九天数学大模型”：开源了JT-Math-8B系列模型，同样提供模型权重、推理代码和技术报告，赋能数学研究和应用。
“九天代码大模型”：开源了JT-Coder-8B系列模型，为开发者提供了强大的代码生成和辅助工具。
业界首创的结构化数据模型评测数据及TReB评测体系：涵盖6大任务、34个能力，提供高质量、全面的数据和评测指标，帮助开发者更准确地评估模型性能。
CCR-Bench行业场景复杂指令遵循评测数据集：包含174条高质量、多样化、高难度的复杂指令数据，高度模拟实际应用场景，为评估模型在复杂指令遵循方面的能力提供了有力支撑。
所有这些开源内容已全面上线至焕新社区、Github、HuggingFace、魔搭社区、Gitee和Arxiv等平台，为全球开发者和研究人员提供了宝贵的资源。通过开放共享，中国移动不仅加速了自身AI技术的创新与应用，更将引领整个行业走向一个更加开放、协作和共赢的新时代。
“九天”基础大模型3.0的发布，不仅是中国移动在大模型领域的一次重大突破，更是中国AI技术发展的一个重要里程碑。它以其强大的性能、可靠的“零幻觉”能力以及开放的生态策略，为大模型的产业化落地描绘了清晰的蓝图。未来，随着更多企业加入到AI技术的开放共享行列，我们有理由相信，一个更加智能、更加普惠的AI时代正在加速到来。

7月抬头

又来一个？性能狂飙幻觉清零是啥意思啊！

我是鱼

这玩意儿真能把幻觉“清零”？不信！

给我希望

又一个大模型，但愿这次能真的牛点，别又搞虚的！

xiaolin

又一个大模型，性能强就完了！

xiaoxing

又来一个？到底管不管用啊！