先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI近日推出了其首个智能体Operator,这是一款多功能AI助手,旨在简化用户的日常生活。Operator具备多种实用功能,包括在线购物、订票以及制作表情包等。通过自然语言处理技术,用户可以轻松与Operator进行交互,享受便捷的个性化服务。Operator的推出标志着OpenAI在智能助手领域的最新进展,其强大的功能和高度的可定制性使其成为用户日常生活中的得力助手。这一创新产品不仅提升了用户体验,也为未来的AI应用开辟了新的可能性。
1 月 23 日,OpenAI 发布了其首款 AI 智能体 Operator,这款工具能够独立浏览网页,并通过点击、滚动、输入等方式与网页进行交互,完成诸如填写表格、订购商品、制作表情包等任务。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
Operator 仍处于研究预览阶段,这意味着它尚不完善,未来将根据用户反馈持续改进,OpenAI 将其定义为“能够独立完成任务的 AI 工具”,用户只需下达指令,Operator 便会自主执行。
Operator 将率先向美国的 ChatGPT Pro 订阅用户开放,后续计划逐步推广至 Plus、Team 和 Enterprise 用户群体,用户可通过独立网站体验 Operator,但 OpenAI 表示,未来会将其整合到所有 ChatGPT 应用中。
OpenAI 首席执行官山姆·奥特曼(Sam Altman)在发布会上表示:“Operator 是我们进入智能体领域的第一步。”OpenAI 联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)也在社交媒体上称:“2025 年将是智能体的元年。”
Operator 的推出标志着 AI 工具从被动处理信息向主动执行任务的重大跨越,它不仅能够浏览网页,还能完成订票、购物、订餐等复杂操作,真正实现了“行动”能力。
Operator 的核心技术被称为“计算机使用智能体(CUA)”模型,该模型结合了 GPT-4o 的视觉识别与高级推理能力,能够通过截图“理解”网页,并像人类一样操作鼠标和键盘,CUA 无需依赖特定操作系统或网络的 API,即可与图形用户界面(GUI)交互,执行各种数字任务。
CUA 的工作流程分为三个阶段:
1、感知:通过屏幕截图获取计算机当前状态的视觉信息,分析页面内容与结构。
2、推理:结合当前与历史截图,动态评估并调整操作步骤,优化任务执行。
3、操作:执行点击、滚动或输入等操作,直到任务完成或需要用户输入,对于敏感操作(如登录或验证码输入),CUA 会请求用户确认。
在 WebArena 和 WebVoyager 两项浏览器操作测试中,CUA 表现优异,WebArena 模拟了网购、内容管理、社交论坛等场景,CUA 的成功率为 58.1%;而在真实网站导航测试 WebVoyager 中,CUA 的成功率高达 87%,在 OSWorld 基准测试中,CUA 对完整操作系统(如 Ubuntu、Windows 和 macOS)的控制成功率为 38.1%,尽管与人类的 72.4% 相比仍有差距,但随着操作步骤的增加,CUA 的表现也在不断提升。
Operator 还具备个性化定制功能,用户可以为特定网页或全站添加自定义指令,并在主页保存这些指令,从而实现跨窗口的多任务并行处理。
为了确保安全性,Operator 设置了多重保护机制,用户可随时接管控制权,敏感操作(如填写信用卡信息或确认付款)需人工明确批准,Operator 无法处理银行交易、发送电子邮件或删除日历事项等高风险任务,其滥用防范系统能够识别并拒绝有害请求,并在检测到可疑活动时暂停执行,许多赌博、成人娱乐以及毒品或枪支零售网站也被列入黑名单。
尽管如此,Operator 仍存在一些局限,它尚无法可靠处理复杂或专业任务,如制作详细幻灯片、管理复杂日历系统或与非标准 Web 界面交互,部分网站(如 Reddit)已禁止 AI 智能体访问,而由于性能或法律原因,Operator 也无法访问某些资源密集型网站(如 Figma)或竞争对手平台(如 YouTube)。
奥特曼在发布会上强调,Operator 只是 OpenAI 智能体计划的开端,未来几周或几个月内还将推出更多智能体,随着 AI 技术的不断演进,AI 正从被动的信息处理工具转变为主动的数字生态系统参与者,逐步实现与人类的深度协作。
参考资料:
- OpenAI 官方介绍:https://openai.com/index/introducing-operator/
- CUA 技术详解:https://openai.com/index/computer-using-agent/
- 科技媒体 TechCrunch 报道:https://techcrunch.com/2025/01/23/openai-launches-operator-an-ai-agent-that-performs-tasks-autonomously/
- VentureBeat 报道:https://venturebeat.com/ai/meet-openais-operator-an-ai-agent-that-uses-the-web-to-book-you-dinner-reservations-order-tickets-compile-grocery-lists-and-more/