GPT-4o与GPT4模型有什么不同?

chatgpt中文网2024-05-16316

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

GPT-4o 是 OpenAI 公司对其广受欢迎的大型多模态模型 GPT-4 的第三次重大迭代,它通过视觉功能扩展了 GPT-4 的能力。新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动,这比之前的版本在使用 ChatGPT 界面时更为突出。(GPT-4o的具体功能可以看我之前写的这篇文章:逆天了,OpenAI发布了GPT-4o的大模型,最接近人类大脑的模型)

在本文中,我们将讨论 GPT-4o与以前的模型有什么不同,并评估其性能,以及 GPT-4o 的使用案例。

尽管发布演示只展示了 GPT-4o 的视觉和音频能力,但发布博客中包含的例子远远超出了之前 GPT-4 版本的能力。像它的前身一样,GPT-4o 具有文本和视觉能力,但它还具有对所有支持的模态的原生理解和生成能力,包括视频。

正如 Sam Altman 在他个人博客中指出的,最令人兴奋的进步是模型的速度,特别是当模型通过语音进行通信时。这是第一次响应几乎没有延迟,你可以与 GPT-4o 进行交互,就像你每天与人进行对话一样。

GPT-4o 的文本评估

对于文本方面,根据 OpenAI 自行发布的基准测试结果,GPT-4o 在与其他大型语言模型(LMMs)如之前的 GPT-4 迭代版本、Anthropic 的 Claude 3 Opus、谷歌的 Gemini 和 Meta 的 Llama3 相比,具有略微提高或相似的得分。
请注意,在提供的文本评估基准测试结果中,OpenAI 比较了 Meta 的 Llama3 的 400b 变体。在发布结果时,Meta 尚未完成其 400b 变体模型的训练。

GPT-4o 的视频能力

关于 API 发布说明中视频使用的重要注意事项:“API 中的 GPT-4o 支持通过视觉能力理解视频。具体来说,视频需要转换为帧以输入模型。” 
GPT-4o 展示了既能查看和理解上传视频文件中的视听内容,也能生成短视频的能力。
在这个 YouTube 上的演示视频中,GPT-4o “注意到”有人在 Greg Brockman 背后做出兔耳手势。在可见的手机屏幕上,除了音效外,还发生了一个“闪烁”动画。这意味着 GPT-4o 可能使用与 Gemini 类似的视频处理方法,即音频与视频提取的图像帧一起处理。

GPT-4o的图像能力

GPT-4o 拥有强大的图像生成能力,能够进行基于一次参考的图像生成和准确的文本描述。这意味着用户可以提供一张参考图像,GPT-4o 将基于这张图像生成新的图像,或者根据用户的文本描述生成相应的图像。

下面展示的图像特别令人印象深刻,因为它们是在要求保持特定文字的同时将其转换成替代性视觉设计的情况下生成的。这项技能与 GPT-4o 创造自定义字体的能力相一致。

GPT-4o的音频能力

类似于视频和图像,GPT-4o 也具有摄取和生成音频文件的能力。
GPT-4o 在生成声音方面表现出令人印象深刻的精细控制水平,能够改变交流速度,在请求时改变音调,甚至按需唱歌。GPT-4o 不仅能控制自己的输出,还能理解输入音频的声音,作为任何请求的额外上下文。演示中展示了 GPT-4o 对试图讲中文的人给出语调反馈,以及对某人在呼吸练习期间呼吸速度的反馈。
根据 OpenAI 自行发布的基准测试结果,GPT-4o 在自动语音识别(ASR)方面超越了 OpenAI 自己的 Whisper-v3,这是之前的最先进技术,并且在音频翻译方面超越了 Meta 和谷歌的其他模型。
GPT-4o 的视觉理解
尽管在之前的迭代中已经具备了最先进的能力,但 GPT-4o 的视觉理解能力得到了提升,在多个视觉理解基准测试中达到了最新水平,超越了 GPT-4T、Gemini 和 Claude。请看下图的比较:
GPT-4o 在视觉应用案例中的表现
接下来,我们看一下GPT-4o 在视觉应用案例中的表现,包括光学字符识别(OCR)、文档 OCR、文档理解、视觉问答(VQA)和对象检测。
OCR(光学字符识别)是一种常见的计算机视觉任务,它能够从图像中提取可见文本并以文本格式返回。在这里,我们指示 GPT-4o “读取序列号” 和 “从图片中读取文本”,它都能够正确回答。下图是GPT-4o读取序列号的例子。

下面是几个大模型光学字符识别的效率,可以看到GPT-4o毫无悬念的胜出了。
接下来,我们看看 GPT-4o 从含有大量文本的图像中提取关键信息的能力。当向 GPT-4o 提供一张收据图片,并询问“我支付了多少税款?”时,以及提供一张披萨菜单图片,询问“Pastrami 披萨的价格是多少?”时,GPT-4o 都能够正确回答这些问题。
此外,GPT-4o 还正确识别出了一张来自电影《小鬼当家》(Home Alone)的场景图像。

随着 OpenAI 不断扩展 GPT-4 的能力,以及 GPT-5 的最终发布,用例将会呈指数级增长。GPT-4 的发布使得图像分类和标记变得非常容易,尽管 OpenAI 的开源 CLIP 模型在成本更低的情况下表现相似。添加视觉能力使得可以将 GPT-4 与其他计算机视觉模型结合使用,这为使用视觉的更全面定制应用程序提供了机会,可以增强开源模型的功能。

GPT-4o 的几个关键元素开启了之前不可能的另一组用例,这些用例与模型在基准测试上的性能提升无关。Sam Altman 的个人博客中提到,他们有明确的意图,即“创建人工智能,然后其他人将使用它来创造我们都受益的各种惊人事物”。如果 OpenAI 的目标是持续降低成本并提高性能,那么这将带来什么呢?

大概有以下3个用例:

1,实时计算机视觉应用案例
新的速度提升,结合视觉和音频功能,终于为 GPT-4 打开了实时应用案例,这对于计算机视觉用例尤其令人兴奋。使用你周围世界的实时视图,并能够与 GPT-4o 模型进行对话,意味着你可以快速收集情报并做出决策。这对于从导航到翻译,再到指导性指令以及理解复杂视觉数据等一切都非常有用。
与 GPT-4o 以你与一个非常能干的人互动的速度进行互动,意味着你将减少输入文本到我们 AI 的时间,而更多地与周围的世界互动,同时 AI 增强了你的需要。
2,通用企业应用
随着额外的模态集成到一个模型中并且性能得到提升,GPT-4o 适用于企业应用流水线中不需要对自定义数据进行微调的某些方面。尽管运行成本比使用开源模型要高得多,但更快的性能使得 GPT-4o 在构建定制视觉应用时更加有用。
你可以在开源模型或微调模型尚不可用的地方使用 GPT-4o,然后使用你的自定义模型来增强 GPT-4o 的知识或降低成本。这意味着你可以快速开始原型设计复杂的工作流程,而不会被许多用例中的模型能力所阻碍。
3,单设备多模态应用案例
使 GPT-4o 能够在桌面和移动设备上运行(如果趋势持续下去,还可能在像 Apple VisionPro 这样的可穿戴设备上运行),可以让你使用一个界面来解决许多任务。你不必通过输入文本来逐步引导得到答案,而是可以直接展示你的桌面屏幕。与其将内容复制粘贴到 ChatGPT 窗口中,你可以在提出问题的同时传递视觉信息。这减少了在不同屏幕和模型之间切换以及创建集成体验所需的提示要求。
GPT-4o 的单一多模态模型减少了摩擦,提高了速度,并简化了将你的设备输入连接起来的过程,降低了与模型交互的难度。
GPT-4o 的最新改进,包括速度提升两倍、成本降低 50%、速率限制提高 5 倍、上下文窗口增加到 128K,以及单一多模态模型,对于构建 AI 应用程序的人来说是激动人心的进步。越来越多的用例适合用 AI 来解决,而且多种输入方式允许实现无缝的界面。
更快的性能和图像/视频输入意味着 GPT-4o 可以与定制的微调模型和预训练的开源模型一起用于计算机视觉工作流程中,以创建企业级应用程序。
这些改进使得 GPT-4o 成为构建各种 AI 驱动的解决方案的理想选择,特别是在需要快速处理和响应大量视觉数据的场景中。例如,在安全监控、医疗影像分析、自动驾驶车辆、智能零售和制造业自动化等领域,GPT-4o 可以提供快速准确的视觉识别和决策支持。
此外,成本的降低和速率限制的提高使得 GPT-4o 更加适合商业用途,因为企业可以更经济高效地集成和扩展 AI 功能,而不必担心性能瓶颈或过高的成本。
总的来说,GPT-4o 的这些进步为 AI 应用的开发和部署开辟了新的可能性,使得 AI 技术更加易于访问和实用,为各行各业的创新和转型提供了强大的动力。

本文链接:http://xiaogongchang.cn/chatgpt/1128.html

OpenAI发布GPT40GPT4o将免费使用GPT40最新消息GPT4o可检测人的情绪gpt4o将免费提供给所有用户

相关文章