
刚刚发布的SuperCLUE-VLM最新榜单,给全球多模态AI模型大战又添一把火。谷歌的Gemini-3-Pro以83.64分,几乎是“断层式”领先,再次证明了它在“看懂图片”和“理解图片背后逻辑”方面的超强实力。
想象一下,AI不光能认出图里是猫还是狗,还能明白这只猫为什么盯着那只狗,甚至推断出它俩可能在玩什么游戏。Gemini-3-Pro在这方面做得最出色。
更让人兴奋的是,咱们中国自己的AI模型也争气了!商汤科技的SenseNova V6.5Pro以75.35分拿下亚军,紧随其后的是字节跳动的豆包大模型,得分73.15。这说明中国AI在“多模态”这个新赛道上,正以惊人的速度追赶国际巨头。
这次评测可不是简单地让AI“看图说话”,而是从三个硬核角度来考量模型:
- 基础认知:模型能不能准确识别图片里的各种东西,比如物体、文字、场景。
- 视觉推理:模型能不能像侦探一样,理解图片里的逻辑关系、因果联系,甚至猜到图片背后没说出来的信息。
- 视觉应用:模型能不能根据图片和文字,生成新的内容,回答复杂的问题,或者调用其他工具来完成任务。
Gemini-3-Pro在这三个方面都表现出了压倒性的优势,分数分别达到了89.01、82.82和79.09。
而中国模型也不甘示弱。商汤的模型在推理和应用上很均衡。豆包模型在基础认知上得分高达82.70,甚至超过了一些国际大牌,虽然在复杂的视觉推理上还有点小差距,但整体表现非常抢眼。百度和阿里的模型也进入了前五名。
特别值得一提的是,阿里的Qwen3-VL模型,一举成为榜单上第一个总分超过70分的开源模型。这意味着,以后开发者们不用花大价钱,也能用上性能强大的AI模型了,这绝对是AI技术普及的一大步。
在国际队伍里,Anthropic的Claude模型表现稳定,保持了它在语言理解上的强项。不过,让人意外的是,OpenAI的GPT-5.2(高配版)这次排名相对靠后,只有69.16分,这倒是让大家开始琢磨,OpenAI在多模态方面的发力方向是不是有所调整。
这份榜单不仅仅是一份排名,它还揭示了AI发展的几个大趋势:
- 开源的力量:Qwen3-VL证明了,开源也能做出顶尖的模型,这会加速AI技术的普及和创新。
- 中国模型更接地气:像豆包和商汤这样的模型,在基础认知上的优异表现,特别适合处理中文互联网上大量的图文信息和短视频内容。
- “看懂”依然是挑战:虽然AI在识别物体上进步飞快,但在理解复杂的逻辑和因果关系上,大多数模型还有很长的路要走,这也是Gemini能持续领先的关键。
未来,AI的“看图说话”能力将是AI助手、智能汽车、AR/VR等前沿技术的核心驱动力。这场“理解世界”的竞赛,正在决定谁能真正掌握下一代科技的钥匙。而中国的大模型,已经加速冲进了这场全球竞赛的第一梯队。