
正文
当用户要求AI画出"穿条纹衫的猫坐在藤椅左侧,右侧花瓶插着向日葵",现有模型常搞错左右关系或漏掉细节。这个困扰行业的空间逻辑难题,最近被港大、港中文和商汤科技的联合团队突破——他们推出的GoT-R1框架,让AI真正理解了复杂指令中的空间语义。
传统文本生成图像模型虽能处理简单描述,遇到多层逻辑指令时,往往出现物体错位、属性混淆等问题。GoT-R1的核心创新在于引入强化学习机制,像教练指导运动员那样动态调整模型行为。团队设计了一套智能奖励系统,从三个维度实时反馈:图文匹配度、空间布局准确性和视觉美感。每次生成图像后,模型会根据评分自主优化策略,逐步掌握如何处理"左/右""前/后"等空间关系指令。
更关键的是,GoT-R1首次实现了推理过程可视化。通过将AI的思考路径转化为可解释的图谱,研究者能清晰看到模型如何拆解"戴草帽的牛仔骑马经过风车"这类复合指令,从而精准调整生成策略。在权威测试集T2I-CompBench中,该模型处理复杂场景的得分比主流工具高出23%,尤其在"多物体空间定位"任务中表现突出。
这项技术突破揭示了AI图像生成的进化方向:从追求画面精美转向逻辑严谨。当模型能真正理解"书在咖啡杯后方,笔记本斜放于左侧"这类指令时,设计师将能通过自然语言快速构建精准场景原型。随着语义推理能力的持续进化,未来工业设计、影视分镜等领域或迎来真正的智能协作时代。
论文地址:https://arxiv.org/pdf/2503.10639