先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI CEO Sam Altman近日发布了一款名为Operator的最新云端浏览器AI代理。Operator旨在通过自然语言处理技术,帮助用户在浏览器中更高效地完成任务。它能够理解用户的指令,自动执行复杂的操作,如数据提取、信息整理和任务自动化。Operator的推出标志着AI技术在浏览器应用领域的进一步深化,为用户提供了更加智能和便捷的在线操作体验。这一创新不仅提升了用户的工作效率,也为未来的AI应用开辟了新的可能性。
1、Operator的功能
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
Operator是一个基于网页浏览器的AI系统,能够独立完成用户分配的任务,例如网上订餐、购物、订票等,它通过控制云端浏览器中的鼠标和键盘来操作网页,无需用户手动干预。
2、技术原理
Operator采用了类似于ChatGPT的技术,并结合了CUA(Computer Use Agent)技术,能够直接解读网页像素,无需依赖网站API即可与网站交互,这使得它能够处理更多未提供API的网站。
3、用户交互
Operator的界面设计简洁,类似于ChatGPT,用户只需输入任务指令即可,在执行操作前,Operator会进行确认,以确保用户意图被正确执行,用户可随时“接管”控制权,进行手动操作或提供更多信息。
4、应用场景举例
在演示中,Operator成功完成了OpenTable订餐、Instacart购物、StubHub订票、DoorDash订餐以及寻找清洁工等任务,展示了其多场景应用能力。
5、安全措施
Operator采取了多层安全措施,包括拒绝有害任务、审核模型、事后检测、屏蔽网站以及“提示注入监视器”等,以确保系统安全可靠地运行。
6、当前状态及未来规划
Operator目前处于早期研究预览阶段,首先面向美国专业用户开放,后续将逐步扩展到其他国家和Plus用户,团队计划持续改进Operator,使其更完善、更便宜、更普及,并计划推出更多类似的AI智能体,Operator的API也将在几周后推出。
7、性能评估
Operator在OSworld和WebArena两个基准测试中取得了高于其他公开发布结果的成绩,但与人类水平仍有一定差距,表明其还有提升空间。
发布会全程图文
主持人Sam:
早上好!今天我们带来了一项令人兴奋的新产品——Operator,这是我们推出的第一个智能体,AI智能体是一种能够独立为用户工作的AI系统,你可以给它一个任务,比如订餐、购物或订票,它会帮你完成这些操作,Operator通过云端浏览器运行,能够像人类一样控制键盘和鼠标,完成复杂的网页操作。
Operator将首先面向美国专业用户开放,之后会逐步推广到其他国家和地区,虽然欧洲可能需要等待一段时间,但我们计划在未来几个月内向Plus用户开放,Operator还处于早期研究阶段,我们会持续改进,使其更便宜、更普及,我们将通过演示展示Operator的能力。
Yash:
大家好,我是Yash,这是Casey和Ray,我们都在智能体团队工作,今天非常高兴为大家展示Operator,虽然它仍处于早期阶段,偶尔会犯错,但它的功能已经非常强大,让我们通过几个实际任务来展示它的能力。
我们来看Operator的主页,界面与ChatGPT非常相似,用户可以输入任务指令,Operator会尽力完成,我们还与OpenTable、Instacart、StubHub、DoorDash等多个品牌合作,确保Operator在这些平台上运行良好。
演示1:OpenTable订餐
我们尝试通过OpenTable在旧金山的Beretta餐厅预订一张两人桌,时间是晚上7点,Operator启动了一个远程浏览器,自动搜索餐厅并完成预订,由于7点没有空位,Operator建议改到7点45分,并在执行前征求用户确认。
演示2:Instacart购物
我们通过Instacart购买杂货,包括鸡蛋、菠菜、蘑菇等,Operator通过图像识别技术读取购物清单,并在Instacart上完成选购,用户还可以随时“接管”控制权,手动调整订单。
演示3:StubHub订票
我们还尝试通过StubHub购买四张篮球赛门票,Operator提供了多个座位选择,并在执行前征求用户确认。
演示4:DoorDash订餐
我们通过DoorDash订购披萨,Operator处理了整个订餐流程,包括选择餐厅、下单和确认支付。
技术细节与安全机制
Ray:
Operator的核心技术是CUA(Computer Use Agent),它基于GPT-4o构建,能够像人类一样通过屏幕、鼠标和键盘控制计算机,与传统的API依赖不同,CUA可以直接解读网页像素,适用于任何网站。
Casey:
为了确保安全,Operator采取了多层防护措施,它拒绝执行有害任务;模型会审核用户指令;我们开发了“提示注入监视器”,类似于防病毒软件,监控系统行为以防止恶意操作。
性能评估与未来展望
Yash:
Operator在OSworld和WebArena两个基准测试中表现优异,得分分别为38.1%和58.1%,高于其他公开发布的AI模型,与人类的72.4%得分相比,仍有提升空间。
Sam:
Operator的发布标志着我们迈出了重要的一步,虽然它仍处于早期阶段,但我们相信,通过与用户的合作,Operator会不断改进,成为人们日常生活中的得力助手,Operator的API也将在几周后推出,进一步扩展其应用场景。
往期精选
1、黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
2、李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
3、PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
4、谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
5、马斯克:AI将使商品和服务的成本趋近于零
6、Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据