Codex成绩从3.8%飙到26.4%，英伟达Polar框架做了什么

智享AI

封面图

英伟达搞了个开源新框架，叫Polar，能让AI编程工具Codex的解题能力暴涨近6倍——在标准测试SWE-Bench Verified里，Codex的pass@1分数从3.8%直接跳到26.4%，提升了594.74%。这还不是全部，训练时间还省了5.39倍，GPU利用率也涨了。
说白了，Polar干的事很简单：它让现在主流的AI编程框架（Codex、Claude Code、Qwen Code这些）不用大改代码，就能接入一种叫GRPO的强化学习训练方法。GRPO是什么？就是通过给对的行为发“奖励信号”，让AI在多步决策任务中自己摸索出更好的策略。就像训练小狗，做对了给块肉干，做错了没奖励，慢慢它就学会更聪明的操作顺序。
以前要让AI学会“一步步地改代码、调工具、打补丁”这种复杂流程，得把整个框架重写成强化学习的接口，超级麻烦，还容易丢失关键的训练信息。英伟达想了个巧办法：Polar不改写原有框架，而是在模型API的边界处插一个“智能体层”，像翻译官一样，一边记录AI的每一步动作和数据，一边转换成训练能用的信号。它兼容各种请求风格，还能管理会话、保存状态，整个流程从提交任务到运行再到结果处理都优化了。
结果就是，Codex这种原本靠“单步预测”的模型，现在能在完整的代码仓库操作、浏览器控制、系统交互等长流程里不断试错学习。打个比方，以前AI写代码像蒙选择题，现在它能模拟“先查文档-再试运行-发现bug-再打补丁”的全链条，错了就扣分，对了就加分，越练越精。
这件事传递的信号很明确：AI从“动嘴回答”转向“动手干活”的趋势已经挡不住了。英伟达这次开源，等于把训练长流程智能体的门槛砍掉了一大截。未来，开发者可以把任何现有的智能体框架直接“嫁接”上强化学习，不再需要从零造轮子。那些还在纠结“AI能不能真正理解业务逻辑”的人，可能要重新算算账了。