刚刚发布的SuperCLUE-VLM最新榜单，给全球多模态AI模型大战又添一把火。谷歌的Gemini-3-Pro以83.64分，几乎是“断层式”领先，再次证明了它在“看懂图片”和“理解图片背后逻辑”方面的超强实力。想象一下，AI不光能认出图里是猫还是狗，还能明白这只猫为什么盯着那只狗，甚至推断出它俩可能在玩什么游戏。Gemini-3-Pro在这方面做得最出色。更让人兴奋的是，咱们中国自己的AI模型也争气了！商汤科技的SenseNova V6.5Pro以75.35分拿下亚军，紧随其后的是字节跳动的豆包大模型，得分73.15。这说明中国AI在“多模态”这个新赛道上，正以惊人的速度追赶国际巨头。这次评测可不是简单地让AI“看图说话”，而是从三个硬核角度来考量模型：基础认知：模型能不能准确识别图片里的各种东西，比如物体、文字、场景。视觉推理：模型能不能像侦探一样，理解图片里的逻辑关系、因果联系，甚至猜到图片背后没说出来的信息。视觉应用：模型能不能根据图片和文字，生成新的内容，回答复杂的问题，或者调用其他工具来完成任务。 Gemini-3-Pro在这三个方面都表现出了压倒性的优势，分数分别达到了89.01、82.82和79.09。而中国模型也不甘示弱。商汤的模型在推理和应用上很均衡。豆包模型在基础认知上得分高达82.70，甚至超过了一些国际大牌，虽然在复杂的视觉推理上还有点小差距，但整体表现非常抢眼。百度和阿里的模型也进入了前五名。特别值得一提的是，阿里的Qwen3-VL模型，一举成为榜单上第一个总分超过70分的开源模型。这意味着，以后开发者们不用花大价钱，也能用上性能强大的AI模型了，这绝对是AI技术普及的一大步。在国际队伍里，Anthropic的Claude模型表现稳定，保持了它在语言理解上的强项。不过，让人意外的是，OpenAI的GPT-5.2（高配版）这次排名相对靠后，只有69.16分，这倒是让大家开始琢磨，OpenAI在多模态方面的发力方向是不是有所调整。这份榜单不仅仅是一份排名，它还揭示了AI发展的几个大趋势：开源的力量：Qwen3-VL证明了，开源也能做出顶尖的模型，这会加速AI技术的普及和创新。中国模型更接地气：像豆包和商汤这样的模型，在基础认知上的优异表现，特别适合处理中文互联网上大量的图文信息和短视频内容。 “看懂”依然是挑战：虽然AI在识别物体上进步飞快，但在理解复杂的逻辑和因果关系上，大多数模型还有很长的路要走，这也是Gemini能持续领先的关键。未来，AI的“看图说话”能力将是AI助手、智能汽车、AR/VR等前沿技术的核心驱动力。这场“理解世界”的竞赛，正在决定谁能真正掌握下一代科技的钥匙。而中国的大模型，已经加速冲进了这场全球竞赛的第一梯队。

Gemini-3-Pro又夺冠！中国AI模型紧追不舍，Qwen3-VL开源模型表现惊艳

智享AI

封面图

刚刚发布的SuperCLUE-VLM最新榜单，给全球多模态AI模型大战又添一把火。谷歌的Gemini-3-Pro以83.64分，几乎是“断层式”领先，再次证明了它在“看懂图片”和“理解图片背后逻辑”方面的超强实力。
想象一下，AI不光能认出图里是猫还是狗，还能明白这只猫为什么盯着那只狗，甚至推断出它俩可能在玩什么游戏。Gemini-3-Pro在这方面做得最出色。
更让人兴奋的是，咱们中国自己的AI模型也争气了！商汤科技的SenseNova V6.5Pro以75.35分拿下亚军，紧随其后的是字节跳动的豆包大模型，得分73.15。这说明中国AI在“多模态”这个新赛道上，正以惊人的速度追赶国际巨头。
这次评测可不是简单地让AI“看图说话”，而是从三个硬核角度来考量模型：

基础认知：模型能不能准确识别图片里的各种东西，比如物体、文字、场景。
视觉推理：模型能不能像侦探一样，理解图片里的逻辑关系、因果联系，甚至猜到图片背后没说出来的信息。
视觉应用：模型能不能根据图片和文字，生成新的内容，回答复杂的问题，或者调用其他工具来完成任务。
Gemini-3-Pro在这三个方面都表现出了压倒性的优势，分数分别达到了89.01、82.82和79.09。
而中国模型也不甘示弱。商汤的模型在推理和应用上很均衡。豆包模型在基础认知上得分高达82.70，甚至超过了一些国际大牌，虽然在复杂的视觉推理上还有点小差距，但整体表现非常抢眼。百度和阿里的模型也进入了前五名。
特别值得一提的是，阿里的Qwen3-VL模型，一举成为榜单上第一个总分超过70分的开源模型。这意味着，以后开发者们不用花大价钱，也能用上性能强大的AI模型了，这绝对是AI技术普及的一大步。
在国际队伍里，Anthropic的Claude模型表现稳定，保持了它在语言理解上的强项。不过，让人意外的是，OpenAI的GPT-5.2（高配版）这次排名相对靠后，只有69.16分，这倒是让大家开始琢磨，OpenAI在多模态方面的发力方向是不是有所调整。
这份榜单不仅仅是一份排名，它还揭示了AI发展的几个大趋势：
开源的力量：Qwen3-VL证明了，开源也能做出顶尖的模型，这会加速AI技术的普及和创新。
中国模型更接地气：像豆包和商汤这样的模型，在基础认知上的优异表现，特别适合处理中文互联网上大量的图文信息和短视频内容。
“看懂”依然是挑战：虽然AI在识别物体上进步飞快，但在理解复杂的逻辑和因果关系上，大多数模型还有很长的路要走，这也是Gemini能持续领先的关键。
未来，AI的“看图说话”能力将是AI助手、智能汽车、AR/VR等前沿技术的核心驱动力。这场“理解世界”的竞赛，正在决定谁能真正掌握下一代科技的钥匙。而中国的大模型，已经加速冲进了这场全球竞赛的第一梯队。

azhai

又是它俩内卷，别人吃瓜看热闹就行了！

lelexia

又双叒叕是AI夺冠，卷死我们这些普通人算了！