今天,我们非常高兴地宣布 Qwen3 正式发布,成为 Qwen 大型语言模型系列的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在编码、数学和通用能力等基准测试中,表现出色,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等其他顶级模型相比,竞争力十足。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数量是 QwQ-32B 的 10 倍,即使是微型模型 Qwen3-4B,其性能也能与 Qwen2.5-72B-Instruct 相媲美。 我们现已开放两个 MoE 模型的权重: •
Qwen3-235B-A22B
:大型模型,总参数量达 2350 亿,激活参数量为 220 亿。 •
Qwen3-30B-A3B
:较小的 MoE 模型,总参数量为 300 亿,激活参数量为 30 亿。 此外,我们还开放了六个密集模型的权重,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,所有模型均遵循 Apache 2.0 许可证。 后训练模型(如 Qwen3-30B-A3B)及其预训练模型(如 Qwen3-30B-A3B-Base)现已在 Hugging Face、ModelScope 和 Kaggle 等平台上线。对于部署,我们推荐使用 SGLang 和 vLLM 等框架。对于本地使用,强烈建议使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。这些选项确保用户能够轻松将 Qwen3 集成到研究、开发或生产环境中。 我们相信,Qwen3 的发布和开源将极大推动大型基础模型的研发。我们的目标是赋能全球的研究人员、开发者和组织,使他们能够利用这些前沿模型构建创新解决方案。 欢迎在 Qwen Chat Web(chat.qwen.ai)和移动应用程序上试用 Qwen3!
主要特点
混合思维模式
Qwen3 模型引入了一种混合方法来解决问题,支持两种模式: 1.
思考模式
:在此模式下,模型逐步推理,适合复杂问题。 2.
非思考模式
:模型提供快速响应,适用于简单问题。 这种灵活性使用户能够根据任务需求控制模型的“思考”量。较难的问题可以通过扩展推理来解决,而简单问题则可立即回答。这种设计增强了模型在思考预算控制方面的能力,确保在成本效率和推理质量之间取得平衡。
多语言支持
Qwen3 模型支持 119 种语言和方言,广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。
增强代理能力
我们优化了 Qwen3 模型的编码和代理能力,并增强了对 MCP 的支持。以下是 Qwen3 在思考和与环境交互方面的示例。
预训练
Qwen3 的数据集相比 Qwen2.5 有了显著扩展,使用了近 36 万亿个 tokens,几乎是 Qwen2.5 的两倍。我们从网络和类似 PDF 的文档中收集数据,采用 Qwen2.5-VL 提取文本,并使用 Qwen2.5 提升内容质量。为了增加数学和代码数据量,我们使用 Qwen2.5-Math 和 Qwen2.5-Coder 生成合成数据,包括教科书、问答对和代码片段。 预训练过程分为三个阶段: 1.
第一阶段
:使用超过 30 万亿个 tokens 预训练模型,提供基本的语言技能和常识。 2.
第二阶段
:增加知识密集型数据(如 STEM、编码和推理任务)的比例,进一步提升模型能力。 3.
最后阶段
:使用高质量的长上下文数据,将上下文长度扩展至 32000 个 tokens,确保模型能有效处理更长输入。 由于模型架构改进、训练数据增加及更有效的训练方法,Qwen3 密集基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当,甚至在 STEM、编码和推理等领域表现更优。
训练后
为了开发既能进行逐步推理又能快速响应的混合模型,我们实现了一个四阶段的训练流程,涵盖长思维链冷启动、基于推理的强化学习、思维模式融合和通用强化学习。
使用 Qwen3 进行开发
以下是在不同框架上使用 Qwen3 的简单指南。首先,在 Hugging Face Transformer 中使用 Qwen3-30B-A3B 的标准示例:
对于部署,您可以使用 SGLang 或 vLLM 创建与 OpenAI 兼容的 API 端点: •
SGLang
: /code python -m sglang.launch_server –model-path Qwen/Qwen3-30B-A3B –reasoning-parser qwen3 •
vLLM
: /code vllm serve Qwen/Qwen3-30B-A3B –enable-reasoning –reasoning-parser deepseek_r1 如果进行本地开发,可以通过运行命令 ollama run qwen3:30b-a3b 来使用模型,或使用 LMStudio、llama.cpp 和 KTransformers 进行本地构建。
高级用法
我们提供了一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型行为。具体而言,您可以在用户提示或系统消息中添加 /think 和 /no_think 指令,以便在每轮对话中切换模型的思考模式。
Qwen 的朋友们
感谢大家的支持。Qwen 需要朋友,才能不断进步!我们欢迎更多个人和组织加入我们的社区,共同推动发展。 /image
未来工作
Qwen3 代表我们向通用人工智能 (AGI) 和超级人工智能 (ASI) 迈出的重要一步。通过扩展预训练和强化学习,我们实现了更高水平的智能。我们将继续改进模型架构和训练方法,以实现更广泛的目标,包括扩展数据、增加模型规模、延长上下文长度、拓展模态以及利用环境反馈推进强化学习。我们相信,未来的迭代版本将为每个人的工作和生活带来显著进步。