OpenAI发布最新模型 o3模型全家桶,包括了o3,o3mini ,o3 mini low,o3mini medium,o3mi

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

今天是OpenAI直播产品发布会最后一天,凌晨2点,奥特曼在圣诞气息中回归,而压轴出场的产品果然不负众望——

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

强到离谱的新推理模型o3正式亮相,以发布会展示的评测实力来看,o3的能力对目前所有大模型都是降维打击。

面对最近OpenAI持续12天的发布会期间谷歌的频繁砸场子,这场发布会也告诉世人,谁才是全球AI大模型领域的扛把子。你大爷,永远是你大爷!

此次上市的o3模型全家桶,包括了o3,o3mini ,o3 mini low,o3mini medium,o3mini high多个版本。

人类距离实现AGI更近一步


在ARC-AGI(通用人工智能评估基准)的评分体系中,o3在低算力资源情况下得分就达到了75.7%,而当增加计算资源后,高算力模式下的o3竟然取得了惊人的高达87.5%的分数,而人类的阈值分数是——85%!

这也是首次有大模型能够在这项测试中超越了人类水平,是历史级的重大技术突破!

附:过去几代模型的历史评分 

* GPT-2 (2019): 0% * GPT-3 (2020): 0% * GPT-4 (2023): 2% * GPT-4o (2024): 5% * o1-preview (2024): 21% * o1 high (2024): 32% * o1 Pro (2024): ~50%

* o3 tuned low (2024): 76% * o3 tuned high (2024): 87%


各领域测试数据表现


1、软件编程测试、竞赛代码测试

SWE bench verified基准测试里,o3模型的准确率达到71.7%,相比o1模型的48.9%有大幅度提升。

在CodeForces竞赛代码网站的测试中,o3模型竟然达到了2727分,远超o1模型,甚至超越了OpenAI首席科学家Yakov的分数( 2665 分 )。

查询该网站的历史数据,人类编程高手中能够超越2727这个分数的,只有174个,也就是说,这个分数能接近全球最顶尖的编程高手水平(超越99.99%的人类)。 

2、数学能力、科学领域复杂问题处理能力测试

数学能力方面,o3模型参加了被视为美国数学奥林匹克预选考试的AIME数学竞赛,得分准确率高达96.7%,这意味它仅仅错了一道题,这也是头一次有AI大模型能拿到接近满分的成绩。

在GPQA  Diamond测试(衡量大模型处理博士水平的科学问题方面的能力)中,o3模型的准确率是87.7%,比o1模型进一步有了10个点的提升。而该领域专家博士平均能够达到的分数是70%。

o3还参加了号称最难数学测试的EpochAI Frontier Math测试,此前数学天才陶哲轩曾经断言:这些极端的测试题目,我认为至少还能难住AI好几年。

结果,o3在这个测试中,将此前SOTA的得分(2分)提升到了25分,相对比之下,GPT-4、Gemini 1.5 Pro这些模型得分无法超过2。

即便是人类的顶尖数学家,要想解出这个测试中的一道题目,也要花数小时到数天,o3只需要几分钟就能搞定。

这表明,o3模型在数学领域、科学领域的复杂问题处理能力已经接近,甚至超越了人类专家水平。

开放进度


目前,这个强到离谱的模型还处于安全测试和红队演练阶段,从今天开始o3 Mini 模型评估版本将会开放给外部安全研究人员进行测试,随后 o3 模型也会参与测试。感兴趣的研究人员可以在 OpenAI 的官方网站上申请参与测试。

申请地址:https://openai.com/index/early-access-for-safety-testing/


模型正在迅速变得更加强大,这意味着需要新的威胁建模、评估和测试技术。

概括来说,正式版还在走政府的安全评估流程,预计1月份正式上线。


如何理解o3在ARC-AGI上超越人类水平


ARC-AGI (通用人工智能评估基准)的创始人François Chollet是这样解读的:

“今天,OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们认为这代表了 AI 适应新任务的重大突破。

它在低算力模式下的半私人评估中得分为 75.7%(计算中每个任务 20 美元),在高计算模式下得分为 87.5%(每个任务数千美元)。它非常昂贵,但并不只是依靠蛮力——这些能力指向了一种全新的领域,需要科学界的认真关注。


总结

o3的发布,不仅能让全球LLM俯首称臣,也极有可能会成为AI发展史上具有里程碑意义的一刻。

它截然不同于OpenAI历史上发布的所有产品,也远超出其他友商的大模型产品,极为特别,大家都要去更新自己对于AI的直觉和固有认知了。

o3以及未来o3的升级版本,会颠覆关于 AI 最重要的、永恒的那个问题——人类视角所理解的AI能够做什么,以及不能做什么,通往AGI之路的那道难以跨越的鸿沟是否还在,硅基生命能否具备类人类智慧,人类文明是否应当接纳多元智能形式。

虽然现在还处于早期阶段,但o3这样的模型已经显示出了真正的智力层面的根本性提升——在某些条件下,o3甚至可以接近实现AGI。

AGI之路已畅通无阻。变革,悄然来临!


END


 前面十一天的发布会回顾:

-Day1  OpenAI12天12场之第1场——ChatGPT o1正式版与Pro版发布

-Day2 OpenAI12天12场之第2场——强化微调

-Day3 Sora登场——OpenAI12天12场之第3场

-Day4 Canvas:重塑生产力——OpenAI12天12场之第4场

-Day5 与苹果AI联姻——OpenAI12天12场之第5场

-Day6 支持视频对话的圣诞模式!——OpenAI12天12场之第6场

-Day7 Chat GPT 项目功能亮相——OpenAI12天12场之第7场

-Day8 Chat GPT 搜索功能免费开放——OpenAI12天12场之第8场

-Day9 满血版o1模型API上线 ——OpenAI12天12场之第9场

-Day10 老奶奶也可以用上ChatGPT了!GPT电话和短信上线 ——OpenAI12天12场之第10场

-Day11 桌面客户端与应用程序协同工作,也许惊喜都要留在明天!——OpenAI12天12场之第11场


代充值gpt4.0

本文链接:http://xiaogongchang.cn/chatgpt/2489.html

o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网

相关文章

  • gpt怎么充值啊

    gpt怎么充值啊

    如何为你的GPT账户充值?简单易懂的指南亲爱的用户们,欢迎来到我们的GPT教程专栏,我们将为大家解答一个非常实用的问题:如何为你的GPT账户充值?这是一个许多新手用户都会遇到的问题,但不用担心,我们将...

  • chatgpt充值不了

    chatgpt充值不了

    如何解决ChatGPT充值不了的问题:小白也能轻松掌握的解决方案亲爱的用户们,您好!在使用ChatGPT的过程中,您是否遇到了充值问题,比如无法成功充值、充值后余额不显示、或者支付后没有反应等情况?别...

  • 苹果卡充值gpt

    苹果卡充值gpt

    如何在苹果卡上充值ChatGPT(GPT)以享受智能对话体验欢迎使用ChatGPT,一款领先的人工智能对话平台!如果您是苹果用户,并且拥有苹果卡(Apple Card),您可能想知道如何使用这张卡来为...

  • 2025最新“ChatGPT充值银行卡被拒绝”的解决办法

    2025最新“ChatGPT充值银行卡被拒绝”的解决办法

    在这个数字化时代,人工智能助手如ChatGPT变得越来越重要,它们可以帮助我们更高效地获取信息、解决问题,甚至进行创意写作,在使用这些服务时,我们可能会遇到一些支付问题,比如银行卡被拒绝,本文将为您提...

  • ios为gpt充值

    ios为gpt充值

    如何在iOS设备上为GPT账户充值:简易操作指南大家好!我们将为您详细介绍如何在iOS设备上为GPT(聊天生成预训练转换器)账户进行充值,无论您是在使用GPT进行日常对话,还是将其应用于更复杂的任务,...