
当其他AI还在跑百米冲刺时,Anthropic的旗舰模型Claude Opus4.5已经拿下了马拉松金牌。最新测试显示,这款顶尖AI在保持五成准确率的情况下能连续工作4小时49分钟——相当于看完三部《指环王》加长版的时间长度。
这场由研究机构METR设计的极限挑战中,"简单题"对Opus4.5就像吃早餐一样轻松:27分钟解决80%正确率的任务。但当题目难度飙升到烧脑级别时,它反而展现出惊人耐力,把竞争对手远远甩开。虽然测试中曾出现20小时的夸张数据(研究人员解释可能是样本误差),但近5小时的稳定表现已足够惊艳整个AI圈。
这就像给AI装上了持久续航的"大脑电池"。过去聊天机器人可能聊半小时就胡言乱语现在Opus4.5能记住几小时前的对话上下文,甚至能帮程序员全程调试代码、陪作家完成长篇创作。不过也有专家泼冷水:测试样本只有14个太少,不排除存在"应试技巧作弊"的可能。
AI战场正在悄然转向——从比谁更聪明到比谁更能熬。随着医疗诊断、科研模拟等长周期任务需求爆发,"持久型AI"或许会成为下一代模型的标配能力。"这就像手机从比拼摄像头到较量续航,"业内人士评价,“未来没有持久力的AI恐怕连参赛资格都没有。”