OpenAI 的 Sora 可不仅仅是一个文本到视频生成器，网友惊呼：现实不存在了！

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

OpenAI 最新推出的AI模型，看似只是在文本及视频到视频生成领域取得了巨大飞跃。但OpenAI 表示，这款模型的潜能远不止于此，它有望成为一个虚拟世界的模拟器。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

就在近日，OpenAI 推出了一款名为Sora的先进视频和图像生成大型AI模型。通过Sora，OpenAI 能够创造出长达一分钟、具有多种宽高比和分辨率的高质量视频。

Sora 基于与语言模型相似的Transformer架构，并将其与图像生成技术中的扩散方法结合使用。在训练过程中，该模型能够处理视频和图像，将它们分解成更简单、更小的元素，进而基于这些元素生成全新的视觉内容。

与此前只专注于某一特定类别的视觉数据、仅能处理短视频或固定尺寸视频的研究不同，Sora能够处理并生成各种长度、宽高比及分辨率的视频和图像，展示了其作为视觉数据处理通才的能力。

而且，Sora 还能创造出交互式的3D世界。虽然OpenAI 对其使用的训练数据守口如瓶，但迄今为止公开的场景已经暗示了，OpenAI 使用的是高质量的合成训练数据，这些数据可能是通过游戏引擎生成的逼真场景，而非或不仅仅是真实录像。

这种做法可能帮助公司避开或减轻了传统文本与图像生成技术所面临的版权问题。Nvidia 的 Jim Fan 等人猜测，这款AI是通过使用Unreal Engine 5生成的合成数据进行训练的。

比如，在以下视频示例中，汽车后方飞扬的尘土让人联想到视频游戏场景，尤其是尘土仅在汽车后方出现，而不是像在现实中那样四处飘扬。

在这段短视频中，两位主角的动画虽然看起来逼真，但其动作的统一性让人想到了视频游戏中的角色，而非多变的人类动作。

Sora 还能模拟出影响场景状态的行为，比如画家在画布上作画时留下变化的线条，或是一个人吃汉堡时留下的咬痕。视频中的元素，如波浪和船只，能够以物理上正确的方式相互作用。

这个模型不仅能生成静态画面，还能模拟出类似于视频游戏中的互动环境。OpenAI 用Minecraft 作为示例，展示了Sora 如何能够生成一个Minecraft 世界并与之互动，就像在原游戏中一样，你所需要做的只是在提示词中加入“Minecraft”。

这一创新远超视频生成本身，预示着游戏图形创造方式的根本性变革。如果你需要更具体的例子，可以看一个仿佛来自赛车游戏的场景演示，展示了Sora 如何仅通过文本指令，就能展示同一场景的多种变化，从丛林到水下世界，从赛博朋克风格到复古像素画面。

尽管Sora 展现了惊人的能力，但根据OpenAI 的说法，作为模拟器它目前还存在一些局限。比如，Sora 在模拟一些基本物理互动，如玻璃破碎时，并不完全准确。

其他一些互动，比如吃东西，有时也不能正确反映物体状态的变化，而且还会出现随时间产生的不一致性或对象突然出现的问题。

然而，OpenAI 表示，通过进一步扩大模型规模，这些问题有望得到解决：“我们的研究结果表明，扩大视频生成模型是构建能够模拟物理世界的通用模拟器的有希望的途径。”

将视频模型作为世界模拟的概念并不新奇，因为它们能够比单纯的文本和图像模型更好地呈现日常生活的复杂多样性。

视频AI初创公司RunwayML 最近展示了它们的世界模型研究，初创公司Wayve 则利用视频模型来模拟自动驾驶汽车的交通情况。

Meta 近年来一直在收集成千上万小时的第一人称视频，用以训练AI辅助系统处理日常生活场景，并在Sora 发布当天，展示了V-JEPA，这是一种新架构，旨在预测和理解视频中的复杂互动。

然而，OpenAI 的 Sora 超越了我们所知的所有先前尝试和模型，在不久的将来，可能真如网友所说，“现实”真的不可分辨了！

代充值gpt4.0