OpenAI 放出了个大招——ChatGPT Agent。这款全新的 AI 工具,标志着人工智能从单纯的对话助手,朝着能自主执行任务的方向迈进了一大步。它整合了 OpenAI 之前推出的 Operator 和 Deep Research 功能,借助虚拟浏览器、终端以及 API 访问,能自己搞定复杂任务,帮用户省时间、提效率。
OpenAI 在4小时前发了条动态:“给你们展示下 ChatGPT Agent 能干啥。需要周一的数据指标?它能自己取数据、生成表格,还能自动安排下次运行。”
核心功能
ChatGPT Agent 可不只局限于文字聊天,它能像人一样在网上逛、点按钮、填表单,甚至还能运行代码、调用 API。比如帮人挑符合预算和风格的婚礼服装、规划旅行行程、做专业报表或者做幻灯片。
OpenAI 说,这个代理是由 GPT-4o 模型驱动的,把 Operator 的网页交互能力和 Deep Research 的深度研究功能捏到了一起,搞出了这么个统一的智能系统。用户就给一个指令,Agent 就能自己一步步把任务完成。
性能表现
ChatGPT Agent 在好几个基准测试里都表现得很突出。在“Humanity’s Last Exam”测试中,准确率有41.6%,比 OpenAI 之前的 o3 模型(20.3%)和 Deep Research(26.6%)高出不少。
在投资银行建模任务里,它的平均准确率能到71.3%;处理 Excel 和 PowerPoint 相关任务时,比微软的 Co pilot 这些竞争对手表现得好。另外,在 BrowseComp 和 WebArena 这类网页导航任务中,它的表现分别是68.9%和65.4%,看得出来实用性挺强。
安全与限制
OpenAI 特别强调,ChatGPT Agent 在设计的时候就很看重安全性。要是执行的操作涉及密码或者支付这种“影响大”的事儿,Agent 会让用户明确授权,而且用户随时能暂停、打断或者接手任务。
为了防止恶意网站或者提示注入攻击,OpenAI 做了严格的防护,比如限制银行转账这类敏感操作,还会自动删掉浏览数据。另外,Agent 被归到了“高生物与化学”能力级别,这也触发了额外的安全保障。
可用性与未来规划
现在,ChatGPT Agent 已经对 ChatGPT 的 Pro、Plus 和 Team 用户开放了。Pro 用户每个月有400次任务配额,Plus 和 Team 用户是40次,超过了可以买额外的额度。
OpenAI 计划在接下来的几周里,把访问权限扩展到企业和教育用户。不过,这个功能暂时还没在欧盟和瑞士推出。
OpenAI 还透露出,Agent 可能是通向更厉害的模型(比如传说中的 GPT-5)的基础,以后可能会加更多功能,像支付结算系统之类的。
行业影响
ChatGPT Agent 发布的时候,正好赶上 AI 行业竞争打得火热。微软的 Co pilot、谷歌的 Gemini 还有 xAI 的 Grok,都在抢数字生产力接口这块地盘。
OpenAI 推出 Agent,不仅稳住了自己在生成式 AI 领域的领先地位,还向传统的搜索和办公软件发起了挑战。业内人士觉得,ChatGPT Agent 可能会改变用户和网络、生产力工具之间的交互方式,成为 AI 驱动自动化的新榜样。
AIbase 认为,ChatGPT Agent 的推出,是 OpenAI 从对话 AI 向全面自动化迈出的关键一步。虽然它处理复杂任务可能得花15-30分钟,但比起人工操作,效率已经提高很多了。
以后,随着技术优化和功能扩展,ChatGPT Agent 有望成为企业和个人用户的好帮手。不过,它的数据隐私和安全问题还得持续关注。