OpenAI 发布首个 AI 智能体

今日凌晨,OpenAI 正式发布其首个 AI 智能体—「Operator」研究预览版。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。

目前,OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。

据了解,Computer-Using Agent (CUA)是支撑 Operator 的核心技术,它融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能。CUA 通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。不过 OpenAI 坦言 CUA 还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。

据悉,当用户启用 Operator 时,系统会弹出一个小窗口,展示专用 Web 浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。但 Operator 目前最大的问题还是不够稳定,其在发布会刚开始演示时还算顺利,但中后期的演示过程中遭遇连环「翻车」,甚至未能成功加载相关网页。

The Rundown AI 创始人 Rowan Cheung 提前体验 Operator,并分享了自己的反馈表示,目前 Operator 的系统仍存在限制,包括部分网站会屏蔽 AI 访问,合作伙伴集成有限。同时 Rowan Cheung 指出 Operator 需要特定的使用方法来优化效果,就像 GPT-4 适合 CoT 提示一样,但目前对 Operator 的最佳使用方式研究还很初步。

此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。因此,为确保 Operator 的安全使用,OpenAI 通过多层保护措施防止滥用并确保用户牢牢控制 Operator,如系统在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。

目前,Operator 将率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户,API 预计将在数周内推出,用户可通过 operator.chatgpt.com 访问该服务,OpenAI 计划后续将其整合到 ChatGPT。

此外,OpenAI CEO Sam Altman 宣布 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。近日,OpenAI 首席产品官 Kevin Weil 还在达沃斯世界经济论坛上表示,公司预计在 2 月或 3 月发布更智能的 GPT-o3 模型。

关于「Operator」的更多技术细节:https://openai.com/index/computer-using-agent/

未经允许不得转载:岩猫星空网 » OpenAI 发布首个 AI 智能体