先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
随着OpenAI的12天直播落下帷幕,一个时代的大幕已经被缓缓拉起,o3大模型的出现,再次向我们证明了处于AI大模型世界金字塔顶端的含金量。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
不先着急,我们先简单回顾总结这12天直播带来了什么:
Day 1:o1模型正式版发布,ChatGPT Pro版本上线。
o1正式版发布:性能提升了34%,错误率降低了34%,支持多模态输入。Pro订阅服务:价格为每月200美元,提供无限制访问o1和专业版o1。
Day 2:推出基于o1的强化微调技术。
Day 4:Canvas全面开放:人+AI协作模式。
增强用户与ChatGPT的交互方式,支持在写作和编程方面进行协作,提供Python代码运行功能。
Day 5:ChatGPT正式集成到iOS生态系统。
接入苹果系统生态:iPhone、iPad和Mac等苹果设备用户可以通过Siri使用ChatGPT的功能,但目前不支持中国大陆地区。
Day 6:语音模式升级,新增视频输入功能。
视频输入功能使ChatGPT具备视觉感知能力,“理解”视频,与人机交互更加深入。
Day 7:推出Projects功能。
相当于电脑中的一个新建文件夹:支持用户将相关资料、文件等信息集中到一个文件夹中,便于管理和定制化操作。并支持多人协作。
Day 8:搜索功能全面升级,免费开放。
基于GPT-4o模型优化,向全球所有用户免费提供。
Day 9:o1推理模型开放API,成本下降60%。
新增功能包括函数调用、实时语音和图像分析等,并发布了Go和Java的SDK。
Day 10:电话服务。
用户可以通过电话或WhatsApp与ChatGPT进行语音对话。
Day 11:ChatGPT与Mac应用深度集成。
在Mac端提供更深入的与应用集成的协作功能:与Warp、XCode等应用协同工作,无需详细交流即可执行任务。
前11天中,很多的功能要不是其他公司已经推出了,要不就是修修补补更新一下,好的新的也就那么一两天。
直到第11天,因其摆出的大阵仗和实际产出的巨大落差还被戏称为“Closed AI”。
直到第12天,真正的压轴大戏上演,“Close”才真“Open”了。
Day 12:新一代推理模型o3和o3-mini发布。
一句话解释:对所有模型的降维打击,如同GPT4发布时的那样。
为什么命名是o3而不是o2,官方解释:
因为强大多了些,直接跳过了o2。
新模型的能力介绍了很多,我们从几个突出的方面入手:
1.强大的数学能力
前一脚刚介绍了Kimi的数理化能力打败其他模型【Kimi上新!AI最终还是拿下了数理化。【应用】】,后一脚o3模型横空出现,力压其他模型。AI的世界也有自己的打脸,发展实在是太快了。
在数学竞赛AIME 2024中以96.7%的准确率成为AI在数学领域的天花板,这也是AI第一次达到接近满分的水平【只错一道题】。
在专门为AI设计的Frontier Math上,其准确率也达到了25.2%,可以说是质上的飞跃。
要知道,这是联合六十余位全世界的数学家共同推出的数学基准测试平台,旨在评估人工智能在解决复杂数学问题上的能力极限。“打蛇打七寸”莫过于此,专打AI的弱点,可想o3模型的能力。
2.过分的编程能力
【左侧图表】软件工程SWE-bench Verified测试中,性能大幅提高:从o1的48.9%到o3的71.7%。
另一项数据则是重头戏【右侧图标】,在全球著名编码竞赛平台Codeforces上,o3的得分是2727。
不知道大家知不知道这个成绩意味着什么?
相当于在整个榜单中排名175名【图中的选手不是AI,只是作为排名参考】,超越了99%的人类。
而OpenAI的现任首席科学家历史最高得分是2655,o3模型的这方面能力已经超过了它的一些缔造者,自己创造的打败了自己。
受伤的总是程序员(哭)。
3.在ARC-AGI测试中打败人类
通过以上介绍,相信大家对o3的能力有了非常详细的了解。
一句话:强大,无需多言!
人类在通往AGI道路上再次迈出了非常有力的一步。
说完好的,说点o3的问题:又贵又慢。
尽管o3非常优秀,但价格昂贵,单个任务的成本差不多2万人民币,绝大多数人根本用不起。只能等待技术进步迭代,把价格打下来了。
而漫长的等待时间也是,平均思考时间达到了23.3秒。在需要及时反馈的应用场景中,这种延迟是不可接受的。
和之前的Sora一样,现在还不能使用,尚在内部测试中,最早明年年初部署并推出第一个版本。