先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
今晚,OpenAI在12天直播的最后一天发布了新的推理模型o3,o3是OpenAI的o1模型的进一步的升级,之所以跳过2,不是因为o2失败了,据说是因为o2这个名字已经被其他组织使用了。而且这次并不是o3的正式发布,只是o3模型的预告,以及给出o3模型的一些早期评估。
据OpenAI的研究员所说,o1是第一个基于强化学习训练的大型推理模型,而o3进一步扩展了(scaling)强化学习,模型效果提升非常显著。
首先,o3在编程方面比上一个版本o1有明显提升。在两个编程竞赛(Codeforces和SWE-bench Verified)的测试基准上o3有显著的优势。o3在真实世界编程基准SWE-bench Verified上实现了71.7%的准确率,比o1高出20%。而o3在Codeforces上的得分已经达到了2727 ELO,在全球排名中名列第175位,这已经超过了网站中的99.9%的人类选手。感觉按照o系列模型的发展趋势,人类程序员确实可能有“失业”的风险。
在数学能力方面,o3也有进步。o3在AIME 2024的数学竞赛上准确度达到了96.7%,而在博士级科学问题的GPQA Diamond上准确度达到了87.7%。
看了其他其他家的SOTA模型在GPQA Diamond上的表现,其中谷歌最新的Gemini 2.0 Flash只有62.1%的准确率,而最新的Claude 3.5 Sonnet是65%的准确率,所以OpenAI的o3遥遥领先。
而且o3在包含更难的数学问题的FrontierMath上,o3将准确率从之前做好的2%提升到了25%。这个测试基准中数学题即使是专业数学家也需要几个小时甚至几天才能解决。总之,o3模型的数学能力是前所未有的强。
另外,o3还在一个ARC-AGI测试上取得了突破。ARC-AGI测试是由一个非盈利组织ARC Prize Foundation所发布。ARC-AGI目前是世界上最重要的未解决的AI基准测试,因为它旨在衡量在新任务上的泛化能力:智能的本质,而不是在可以提前准备的任务上的技能。
ARC-AGI任务不需要专门的世界知识(例如,历史事实)也不需要语言来解决。 唯一假定的先验知识是“核心知识”(Core Knowledge),比如物体性、基本拓扑、基础整数算术等概念。人类的核心知识是儿童非常早期获得的(通常在四岁之前),并且被所有人类普遍共享。ARC-AGI公开训练任务旨在让测试者接触到解决ARC-AGI任务所需的所有核心知识先验。具体来说,ARC-AGI-1包含1000个任务,然后划分成4个集合,包括公共训练集(400个简单任务)、公开评测集(400个难任务)、半私有测试集(100个难任务,虽未公开,但是已经暴露给商业API)、私有测试集(100个难任务,没有公开,用于评估独立)。从ARC-AGI给的示例来看,这个任务是给定一些输入和输出的例子让模型寻找规律,并根据新的输入推测正确的输出(有点图形推理的感觉)。
OpenAI 的o3模型(在 ARC-AGI-1 公共训练集上进行训练),在 10,000 美元计算限制下的半私有测试集上取得了突破性的75.7% 的成绩,取得了公共排行榜第一。而在高计算配置下,o3 得分为87.5%。
下面是完整的测试结果:
ARC-AGI这个任务设置的预期目标是达到85%,而o3模型已经超过了这一设定目标,这说明AI 能力呈现惊人而重要的阶跃式增长,也展现了 GPT 系列模型中前所未有的新任务适应能力。作为对比,ARC-AGI-1 用了 4 年时间从 2020 年 GPT-3 的 0% 上升到 2024 年 GPT-4o 的 5%。按照ARC Prize组织的说法,他们会在2025年还会推出新的ARC-AGI-2。
不过o3要达到87.5%性能,计算成本是非常高的。但仍然表明,随着计算量的增加,新任务的性能确实会提高(至少达到这个水平)。尽管每个任务的成本很高,但这些数字不仅仅是将暴力计算应用于基准的结果。OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是一个真正的突破,标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。
虽然ARC-AGI 是检测此类突破的关键基准。然而,ARC Prize组织发起人François Chollet也指出ARC-AGI 并不是 AGI 的试金石,它只是一种研究工具,旨在关注人工智能中最具挑战性的未解决问题。通过 ARC-AGI 并不等同于实现 AGI。而且,François Chollet认为 o3 还不是 AGI:o3 在一些非常简单的任务上仍然失败,这表明与人类智能存在根本差异。下面是3个o3没有解决的问题:
对于o3为什么能进步这么大,François Chollet认为o3 解决了 LLM 范式的根本限制:无法在测试时重新组合知识。他认为LLM是充当矢量程序的存储库。当给提示时,它们会获取你的提示映射到的程序,并在手头的输入上“执行”它。LLM是一种通过被动接触人类生成的内容来存储和操作化数百万有用小程序的方式。这种“记忆、检索、应用”范式在给定适当的训练数据的情况下,可以实现任意任务的任意技能水平,但它不能适应新奇事物或即时学习新技能,而ARC-AGI上表现差就是一个证明。
要适应新奇事物,你需要两样东西。首先,你需要知识:一套可重用的函数或程序来借鉴。LLM拥有足够的这些。其次,你需要在面对新任务时将这些函数重新组合成一个全新的程序:一个模拟手头任务的程序。程序合成。LLM长期以来缺乏这一特性。而o系列模型修复了这一点。
对于o3的工作原理,François Cholle推测其核心机制是自然语言程序搜索和在token空间内的执行:在测试时,模型在可能的思考链(CoTs)空间中搜索,描述解决任务所需的步骤,这种方式可能与AlphaZero风格的蒙特卡洛树搜索不无相似。在o3的情况下,搜索可能由某种评估模型引导。因此,传统的 LLM 难以实现新颖性,但 o3 通过生成和执行自己的程序克服了这一问题,其中程序本身(CoT)成为知识重组的产物。尽管这不是测试时知识重组的唯一可行方法(你也可以进行测试时训练,或在潜在空间中搜索),但根据这些新的ARC-AGI数字,它代表了目前的最先进的技术。
此外,OpenAI除了发布o3,还给出了性价比更高的o3-mini。o3-mini虽然在编程和数学能力上差于o3,但是推理成本更低。
同步地,OpenAI还发布了o系列模型的新对齐策略:deliberative alignment。这种新对齐方法直接教模型安全规范,并训练它在回答前明确回忆并准确推理这些规范。使用这种方法来对齐OpenAI的o系列模型,并在不需要人为编写的思考链或答案的情况下,实现了对OpenAI安全政策的高度精确遵循。而且这种对齐方法在增加对越狱的鲁棒性同时降低了过度拒绝率,并且还改善了分布外泛化。
要说明的是o3还没有正式开发,但是你可以申请测试o3-mini:
https://openai.com/index/early-access-for-safety-testing/
从最后一天来看,OpenAI还是带了新的惊喜。不管怎么说,OpenAI还是在持续推进AGI的路上,大家目前还是追随者。
本文链接:http://xiaogongchang.cn/chatgpt/2491.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网