先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI不负众望整了个大的,发布了全新预览版模型 o3 和 o3mini。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
首先跟大家说个冷知识,你知道为什么这次 OpenAI 直接跳过了 o2 发布 o3 吗?主要原因是英国有一家著名的电信公司叫o2,怕商标起冲突,所以才直接来了个第三代。
那接下来就让我们一起来看看新模型它到底强大在哪里?是不是这次的发布会意味着通用人工智能(AGI)的到来呢?
我们先说结论, o3 很强,肉眼可见的强。甚至现有的 AGI 基准已经开始饱和,需要重新做数据集来测出它的上限。
这句话什么意思啊?你可以简单的理解成一个能力已经达到了高中水平的学生还在上小学的感觉。而这次更新也是人工智能通往 AGI 道路上的一个重要里程碑,那首先必不可少的,我们先看看 o3 的基准测试结果如何。
据发布的测试结果数据显示,在软件风格基准测试中, o3 模型的准确率达到了71.7%,相比 o1 模型提升超过20%。在竞赛代码领域,o3 模型在 Codeforces 竞赛编码网站上的表现堪称卓越,达到了 2727 分,远远超过 o1 模型的 1891 分,甚至超越了 OpenAI 的首席科学家2665 分的分数,正在接近顶尖编程高手的水平。这说明 o3 在处理复杂编程任务时具备出色的逻辑推理和算法实现能力。
在数学能力测试中, o3 模型在美国 AIME的数学竞赛中仅仅错了一道题,达到了 96.7 分,大幅度超过了 o1 的 83.3 分,表现十分出色。而在衡量模型解决博士阶段科学问题的基准测试中, o3 模型取得了 87.7% 的准确率,比 o1模型的分数提高了约10%,甚至超过了领域专家博士通常能达到的 70% 的水平。这说明 o3 模型在数学和科学领域解决复杂问题上已经接近甚至超越人类专家的水平。
最重要的来了,在 Arc AGI 测试中,o3 模型取得了重大的突破,o3 在低算力资源的情况下实现了 75.7 分。
而当进一步提升计算能力,让 o3 模型进行更长时间的思考后,它的得分更是高达 87.5 分。
这个成绩特别重要,因为人类在这个测试中的表现最高值为 85分,这也是首次有大模型超过了人类的水平,而这也标志着人工智能在技术研发领域实现了重大的技术突破,取得了新的里程碑。
同时openi 也宣布推出 o3 mini 版本,虽然不如 o3 模型的性能出色,但它能让开发者以比较低的成本使用它的服务。
在编码评估方面,o3 模型表现出了出色的性能提升。随着思考时间的增加,超越了 o1 mini 模型,在某些时候 o3 mini 模型的性能甚至优于 o1 模型,相当于你可以用更低的成本得到更好的代码性能。开发人员可以在不增加成本的情况下获得更高效的编程辅助,提高开发效率,降低开发成本。
在数学能力测试中, o3 mini 模型的表现非常出色, o3 mini 的低配版性能和 o 1 mini 差不多,而 o3 mini 的中配版模型则比o1 性能更好。
希望朋友们可以帮忙【点击一下】下面这个小卡片,点击一下立马关闭即可,你们的随手点击,就是我分享更多干货的动力源泉
这时候肯定有小伙伴有疑问,那 o3 是 AGI 吗?那首先先跟大家普及一下,AGI 全称是 Artificial general intelligence,也就是通用人工智能,这是一种能像人类一样思考和学习的智能机器,它可以做很多不同的事情,比如帮你解决问题、学习新的知识、和人交流等,而且它也不需要你给它特别的指令或者设置。他就像一个聪明的学生一样,能够学会各种科目,而不是只能做好一件事儿。现在的人工智能只能做特定的任务,比如下棋或者翻译,但 AGI 能够像人类一样全面适应和理解各种情况。
虽然在这次的 2 个 AGI 测试中, o3 模型取得了重大的突破,而且是一个真正的突破。o3 是一个能够适应他之前从来没有遇到过任务的系统,可以说正在接近人类的水平。但Arc AGI 的创始人也说了,暂时 o3 还不是AGI。因为仍然有相当数量的任务是 o3 现阶段没有办法解决的,但现在他们已经走在了通往 AGI 的道路上。
那这么厉害的模型是不是马上就能用了呢?现在还不行, o3 和 o3 mini 的模型目前是处于安全测试的预览阶段。
从今天开始, o3 mini 模型率先开放给外部安全研究人员进行测试,随后 o3 模型也会参与到里面。所以如果你是安全研究人员,你可以去 open ai 的官方网站填写申请表格参与测试。
好消息是, Sam Altman预计 o3 mini 1月底就可以使用了, o3 mini 将支持 o1 支持的所有功能函数调用结构化输出,同时价格更加的便宜。总的来说, o3 模型不仅在多个基准测试中创造了新的记录,展现出它强大的解决问题能力远远超过之前的所有模型。同时,人工智能的性能已经达到了一个前所未有的新高度,整个行业都会因为 OpenAI 今天的发布往前迈出一大步,可能全民 ACI 的时代马上就要来了,这时候我唯一能告诉自己的就是,赶快把身体锻炼好,才好拥抱这次科技革命的到来!