先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
今天是OpenAI直播产品发布会最后一天,凌晨2点,奥特曼在圣诞气息中回归,而压轴出场的产品果然不负众望——
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
强到离谱的新推理模型o3正式亮相,以发布会展示的评测实力来看,o3的能力对目前所有大模型都是降维打击。
面对最近OpenAI持续12天的发布会期间谷歌的频繁砸场子,这场发布会也告诉世人,谁才是全球AI大模型领域的扛把子。你大爷,永远是你大爷!
此次上市的o3模型全家桶,包括了o3,o3mini ,o3 mini low,o3mini medium,o3mini high多个版本。
人类距离实现AGI更近一步
在ARC-AGI(通用人工智能评估基准)的评分体系中,o3在低算力资源情况下得分就达到了75.7%,而当增加计算资源后,高算力模式下的o3竟然取得了惊人的高达87.5%的分数,而人类的阈值分数是——85%!
这也是首次有大模型能够在这项测试中超越了人类水平,是历史级的重大技术突破!
附:过去几代模型的历史评分
* GPT-2 (2019): 0% * GPT-3 (2020): 0% * GPT-4 (2023): 2% * GPT-4o (2024): 5% * o1-preview (2024): 21% * o1 high (2024): 32% * o1 Pro (2024): ~50%
* o3 tuned low (2024): 76% * o3 tuned high (2024): 87%
各领域测试数据表现
1、软件编程测试、竞赛代码测试
SWE bench verified基准测试里,o3模型的准确率达到71.7%,相比o1模型的48.9%有大幅度提升。
在CodeForces竞赛代码网站的测试中,o3模型竟然达到了2727分,远超o1模型,甚至超越了OpenAI首席科学家Yakov的分数( 2665 分 )。
查询该网站的历史数据,人类编程高手中能够超越2727这个分数的,只有174个,也就是说,这个分数能接近全球最顶尖的编程高手水平(超越99.99%的人类)。
2、数学能力、科学领域复杂问题处理能力测试
数学能力方面,o3模型参加了被视为美国数学奥林匹克预选考试的AIME数学竞赛,得分准确率高达96.7%,这意味它仅仅错了一道题,这也是头一次有AI大模型能拿到接近满分的成绩。
在GPQA Diamond测试(衡量大模型处理博士水平的科学问题方面的能力)中,o3模型的准确率是87.7%,比o1模型进一步有了10个点的提升。而该领域专家博士平均能够达到的分数是70%。
o3还参加了号称最难数学测试的EpochAI Frontier Math测试,此前数学天才陶哲轩曾经断言:这些极端的测试题目,我认为至少还能难住AI好几年。
结果,o3在这个测试中,将此前SOTA的得分(2分)提升到了25分,相对比之下,GPT-4、Gemini 1.5 Pro这些模型得分无法超过2。
即便是人类的顶尖数学家,要想解出这个测试中的一道题目,也要花数小时到数天,o3只需要几分钟就能搞定。
这表明,o3模型在数学领域、科学领域的复杂问题处理能力已经接近,甚至超越了人类专家水平。
开放进度
目前,这个强到离谱的模型还处于安全测试和红队演练阶段,从今天开始o3 Mini 模型评估版本将会开放给外部安全研究人员进行测试,随后 o3 模型也会参与测试。感兴趣的研究人员可以在 OpenAI 的官方网站上申请参与测试。
申请地址:https://openai.com/index/early-access-for-safety-testing/
模型正在迅速变得更加强大,这意味着需要新的威胁建模、评估和测试技术。
概括来说,正式版还在走政府的安全评估流程,预计1月份正式上线。
如何理解o3在ARC-AGI上超越人类水平
ARC-AGI (通用人工智能评估基准)的创始人François Chollet是这样解读的:
“今天,OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们认为这代表了 AI 适应新任务的重大突破。
它在低算力模式下的半私人评估中得分为 75.7%(计算中每个任务 20 美元),在高计算模式下得分为 87.5%(每个任务数千美元)。它非常昂贵,但并不只是依靠蛮力——这些能力指向了一种全新的领域,需要科学界的认真关注。”
总结
o3的发布,不仅能让全球LLM俯首称臣,也极有可能会成为AI发展史上具有里程碑意义的一刻。
它截然不同于OpenAI历史上发布的所有产品,也远超出其他友商的大模型产品,极为特别,大家都要去更新自己对于AI的直觉和固有认知了。
o3以及未来o3的升级版本,会颠覆关于 AI 最重要的、永恒的那个问题——人类视角所理解的AI能够做什么,以及不能做什么,通往AGI之路的那道难以跨越的鸿沟是否还在,硅基生命能否具备类人类智慧,人类文明是否应当接纳多元智能形式。
虽然现在还处于早期阶段,但o3这样的模型已经显示出了真正的智力层面的根本性提升——在某些条件下,o3甚至可以接近实现AGI。
AGI之路已畅通无阻。变革,悄然来临!
END
前面十一天的发布会回顾:
-Day1 OpenAI12天12场之第1场——ChatGPT o1正式版与Pro版发布
-Day2 OpenAI12天12场之第2场——强化微调
-Day3 Sora登场——OpenAI12天12场之第3场
-Day4 Canvas:重塑生产力——OpenAI12天12场之第4场
-Day5 与苹果AI联姻——OpenAI12天12场之第5场
-Day6 支持视频对话的圣诞模式!——OpenAI12天12场之第6场
-Day7 Chat GPT 项目功能亮相——OpenAI12天12场之第7场
-Day8 Chat GPT 搜索功能免费开放——OpenAI12天12场之第8场
-Day9 满血版o1模型API上线 ——OpenAI12天12场之第9场
-Day10 老奶奶也可以用上ChatGPT了!GPT电话和短信上线 ——OpenAI12天12场之第10场
-Day11 桌面客户端与应用程序协同工作,也许惊喜都要留在明天!——OpenAI12天12场之第11场
本文链接:http://xiaogongchang.cn/chatgpt/2489.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网