
多模态大模型在立体几何题上栽了大跟头——最新测试显示,当前最先进的AI面对三维几何题时,正确率还不到50%。而人类解题的平均正确率可达77.5%。这道横亘在AI面前的"空间高墙",正由中国科学院自动化研究所发布的SolidGeo基准首次精准丈量。
作为全球首个专注三维空间推理的测评体系,SolidGeo如同给AI布置了一套立体几何"高考卷"。研究团队从K12教材和数学竞赛中精选3113道经典三维几何题,每道题均配立体图示与分步解析。这些题目要求AI同时处理图像结构与文本描述,在脑中构建旋转的立方体、折叠的纸盒、堆叠的立体图形等复杂关系。
测试结果令人警醒:26款主流模型中,OpenAI的顶级模型o1仅答对49.5%的题目。更值得玩味的是,在涉及立体展开图、截面透视等进阶题时,o1正确率骤降至36.1%。多数开源模型表现更糟,三成题目都难以攻克。研究还发现奇特现象——某些模型在困难题上反超简单题,暴露出泛化能力的结构性缺陷。
"模型常陷入过度思考的泥潭。"研究负责人指出。当题目复杂度增加时,AI生成冗长无效的推理步骤,导致效率断崖式下跌。这揭示出当前多模态模型的核心痛点:它们能背诵海量知识,却难以像人类那样在脑中"翻转"立体模型。
SolidGeo的亮相恰逢其时。随着大模型向三维设计、机器人导航等场景渗透,空间智能已成关键瓶颈。这套基准如同精准的CT扫描仪,既照出现有技术的软肋,也为突破指明方向——当AI真正理解"长宽高"构成的立体世界,工业仿真、医疗影像分析等领域或将迎来质变突破。
技术深水区
当前AI的立体几何困境,本质是空间认知与逻辑推演的双重缺失。人类解题时会在脑中旋转拆解图形,而大模型仅靠文本图像关联难以构建动态三维映射。要跨越这道鸿沟,或需重新设计模型架构——让AI学会用"空间想象力"替代"语言拼图",才是破局关键。