
英伟达搞了个开源新框架,叫Polar,能让AI编程工具Codex的解题能力暴涨近6倍——在标准测试SWE-Bench Verified里,Codex的pass@1分数从3.8%直接跳到26.4%,提升了594.74%。这还不是全部,训练时间还省了5.39倍,GPU利用率也涨了。
说白了,Polar干的事很简单:它让现在主流的AI编程框架(Codex、Claude Code、Qwen Code这些)不用大改代码,就能接入一种叫GRPO的强化学习训练方法。GRPO是什么?就是通过给对的行为发“奖励信号”,让AI在多步决策任务中自己摸索出更好的策略。就像训练小狗,做对了给块肉干,做错了没奖励,慢慢它就学会更聪明的操作顺序。
以前要让AI学会“一步步地改代码、调工具、打补丁”这种复杂流程,得把整个框架重写成强化学习的接口,超级麻烦,还容易丢失关键的训练信息。英伟达想了个巧办法:Polar不改写原有框架,而是在模型API的边界处插一个“智能体层”,像翻译官一样,一边记录AI的每一步动作和数据,一边转换成训练能用的信号。它兼容各种请求风格,还能管理会话、保存状态,整个流程从提交任务到运行再到结果处理都优化了。
结果就是,Codex这种原本靠“单步预测”的模型,现在能在完整的代码仓库操作、浏览器控制、系统交互等长流程里不断试错学习。打个比方,以前AI写代码像蒙选择题,现在它能模拟“先查文档-再试运行-发现bug-再打补丁”的全链条,错了就扣分,对了就加分,越练越精。
这件事传递的信号很明确:AI从“动嘴回答”转向“动手干活”的趋势已经挡不住了。英伟达这次开源,等于把训练长流程智能体的门槛砍掉了一大截。未来,开发者可以把任何现有的智能体框架直接“嫁接”上强化学习,不再需要从零造轮子。那些还在纠结“AI能不能真正理解业务逻辑”的人,可能要重新算算账了。