
在刚刚落幕的 OpenAI 开发者日(Dev Day)上,这家人工智能领域的领头羊再次祭出了颠覆性的创新。与其说是发布了新工具,不如说 OpenAI 正试图重塑我们与 AI 互动的方式。核心变化在于,ChatGPT 不再仅仅是一个对话机器人,它摇身一变成了第三方应用的“操作系统”,并且,我们还迎来了能够自主完成任务的 AI 代理。这意味着,未来你与 AI 的交互,将远不止于简单的问答。
ChatGPT 平台化:应用触手可及,生态系统迎来巨变
这次最引人注目的变革,是 ChatGPT 正式转型为一个开放的应用平台。借助新推出的 Apps SDK,开发者们可以构建各种各样的交互式应用程序,直接集成到 ChatGPT 的聊天界面中。想象一下,你可以在和 ChatGPT 对话的同时,直接调用 Canva 来设计海报,或者在聊天窗口里就看到 Zillow 提供的、带有“仅花园”筛选条件的房源地图。这不再是遥不可及的设想。
新的 SDK 基于 OpenAI 的模型组件协议(MCP)构建,并加入了诸如 HTML 渲染、用户登录和支付等关键功能,确保开发者能够构建出功能完备的应用。这意味着,这些应用将拥有更强的交互性和更丰富的用户体验,甚至可以实现全屏模式,让 AI 成为执行复杂任务的得力助手。Canva 和 Zillow 的现场演示已经初步展现了这种潜力,而 Booking.com、Coursera、Spotify 等一众知名品牌的加入,更是预示着一个更加繁荣的 ChatGPT 应用生态即将到来。未来,我们还将看到 DoorDash、Uber 等更多服务集成其中。OpenAI 也计划推出应用商店和付费选项,让开发者能够从中获利,进一步激励生态的繁荣。值得注意的是,这个新的 SDK 将逐步取代旧版的 ChatGPT 插件。
自主 AI 代理:让 AI “主动”为你办事
除了平台化,OpenAI 还发布了 AgentKit,一套用于构建自主 AI 代理的工具。简单来说,这些代理能够理解你的目标,并主动规划、执行一系列步骤来完成任务,而无需你事事亲力亲为。最令人惊叹的是 Agent Builder,一个通过拖拽组件就能组装工作流的可视化工具。在现场,OpenAI 仅用八分钟就搭建了一个能推荐会议安排的代理,并且可以立即投入使用。
AgentKit 的核心组件还包括 ChatKit(用于聊天交互)、Evals(用于测试和评估代理性能)以及 Connector Registry(用于管理数据访问)。更进一步,通过一种名为“强化微调”(RFT)的新技术,这些代理将能够实现更深度的定制和优化,甚至已经在 GPT-5 上进行了内部测试。虽然 Agent Builder 目前还处于测试阶段,但 ChatKit 和 Evals 已经正式上线,Connector Registry 也正面向 API 和企业客户推广。这意味着,AI 不仅能帮你“想”,更能帮你“做”。
模型能力再攀高峰:GPT-5Pro 领衔,多模态与效率并进
在底层模型方面,OpenAI 也带来了重磅升级。其迄今为止最强大的语言模型 GPT-5Pro API 现已推出,专为处理极致复杂的任务而设计。它拥有惊人的 40万个 token 上下文窗口,能够处理海量信息,并支持高达 27.2万个 token 的输出。虽然它需要更多的计算资源,并且目前仅支持文本和图像输入(输出仍为文本),但其强大的能力无疑将为开发者带来前所未有的创作空间。GPT-5Pro 的定价也反映了其高端定位,每百万输入令牌 15 美元,每百万输出令牌 120 美元。
同时,OpenAI 也关注到了成本和效率问题,推出了成本更低的 gpt-realtime-mini(比前代便宜约70%)和 gpt-image-1-mini(图像处理模型,便宜约80%)。此外,备受期待的文本到视频模型 Sora 的 API 也已发布,这标志着 AI 在多模态生成领域的又一次飞跃。编码助手 Codex 也已全面可用,并且新增了 Slack 集成和 SDK,其使用量自推出以来增长了十倍,显示出 AI 在软件开发领域的强大赋能力量。
OpenAI 此次发布的一系列重磅更新,不仅仅是技术上的迭代,更是对 AI 生态的一次系统性重构。从将 ChatGPT 打造成一个功能丰富的应用平台,到推出能够自主执行任务的 AI 代理,再到不断突破极限的模型能力,OpenAI 正一步步将 AI 从一个工具,转变为一个与我们深度协作、能够主动解决问题的伙伴。这预示着,一个更加智能、更加高效的 AI 新时代正加速到来,而我们每个人都将是这个变革的亲历者。