现实,不存在了!一文带你解密 OpenAI Sora 视频生成模型

chatgpt中文网2024-02-20304

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

大家好,我是皇子

【皇子导读】OpenAI 首个 AI 视频模型 Sora 横空出世,再次震撼世界。OpenAI 更是将 Sora 视频生成模型称为「世界模拟器」,并发布了技术报告。

全文目录结构为:

    一、Sora 是什么?

    二、Sora 生成的视频效果

    三、Sora 核心技术解读

    四、Sora 的所有功能

    五、Sora 的局限性

    六、Sora 带来的影响

    七、Sora 的展望

前几天的 OpenAI 首个 AI 视频模型 Sora 发布后,周鸿祎大佬发表“Sora 意味着 AGI 实现将从 10 年缩短到 1 年”的观点,连 CCTV 也报导 Sora 为首个视频生成大模型,在全球的社交媒体上同样惊呼:现实,不存在了!

下面我们一起解密 OpenAI Sora 视频生成模型。

一、Sora 是什么?

Sora 是一个 AI 模型,可以从文本指令中创建逼真和富有想象力的场景。

  • 这是一种通用的视觉数据模型,并作为 OpenAI 的一个新的里程碑

  • 它可以生成不同持续时间、宽高比和分辨率的视频

  • 同时保持视觉质量并遵守用户的提示

  • 具备一次性生成多个视角视频的能力

  • 目前最大的型号 Sora 能够生成一分钟的高保真视频

该模型同样是基于 Transformer 架构进行训练学习的。

ps:关于 Transformer 模型架构可以查看历史的文章

二、Sora 生成的视频效果

一)时尚的女人走在街道上

提示词:

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

译文:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她走得自信而随意。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

效果:

二)海盗船在一杯咖啡里打斗

提示词:

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

译文:两艘海盗船在一杯咖啡里航行时相互打斗的逼真特写视频

效果:

三)中国龙庆祝新年

提示词:

A Chinese Lunar New Year celebration video with Chinese Dragon.

译文:中国龙的中国农历新年庆祝视频。

效果:

三、Sora 核心技术解读

文末附:OpenAI 官方的 Sora 技术报告链接

通过 OpenAI 公布的技术报告中,我们了解到 Sora 视频生成模型的技术核心将所有类型的视觉数据转换为统一表示的方法,以实现生成模型的大规模训练。下面基于技术报告中涉及的技术内容进行解读

一)将可视化数据转换为补丁(Turning visual data into patches)

Sora 相关的研究人员从大型语言模型(LLM)的成功中汲取灵感,使视觉数据生成模型也能像 LLM 那样,具有处理多种类型数据的能力。

而 LLM 成功的部分原因,即使用了“token(令牌)”,token 能够优雅地统一文本的不同模态,如代码、数学和各种自然语言,这种统一使得 LLM 能够处理多种类型的文本数据。

于是 Sora 使用视觉补丁(patches)作为其基础表示,这是一种高度可扩展和有效的表示方法,可以用于训练多种类型视觉数据(视频和图像)的生成模型

视觉补丁(visual patches):是图像或视频的小块区域,这种方法可以捕获图像的局部特征


在高维空间上,首先将视频压缩为低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。

二)视频压缩网络(Video compression network)

这个神经网络的主要目的是降低视觉数据的维度。在深度学习中,降维是一种常见的技术,用于减少数据的复杂性,使其更易于处理和分析。通过降维,我们可以保留数据中的主要特征,同时去除噪声或不重要的细节。

这个神经网络以原始视频作为输入,并输出一个在时间和空间上都经过压缩的潜在表示(latent representation)

ps:潜在表示是指将原始数据(如视频帧)转换为一个低维向量,这个向量包含了原始数据的关键特征或信息;而潜在表示在时间和空间上都被压缩了意味着这个潜在表示不仅减少了每一帧的像素数量(空间压缩),而且还减少了整个视频序列的长度(时间压缩)。

Sora 是在这个压缩的潜在表示空间上进行训练的,并且能够在该空间内生成新的视频。这意味着 Sora 不仅可以处理降维后的数据,还可以在这个降维空间中创造新的、有意义的视频内容。这是生成模型的一个关键特性,它们能够学习数据的分布并生成新的、类似的数据。

随后为了能够从潜在表示空间返回到原始的像素空间(即能够可视化或播放生成的视频),OpenAI 还训练了一个相应的解码器模型。解码器模型的任务是将潜在表示转换回其原始的、高维的像素表示。这样,我们就可以查看和评估 Sora 生成的视频的质量和内容。

三)时空潜在补丁(Spacetime latent patches)

对于给定一个压缩的输入视频,OpenAI 会提取一系列的时空补丁(spacetime patches),这些时空补丁充当转换器(transformer)的令牌(tokens)。

ps:其中转换器与Transformer 模型架构有关,其令牌(tokens)是模型处理的基本单位,它们通过自注意力机制进行交互的。

这个方案也适用于图像,因为图像只是具有单个帧的视频。基于补丁的表示使 Sora 能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时,Sora 可以通过在一个适当大小的网格中排列随机初始化的补丁来控制生成视频的大小,包括输出视频的分辨率、时长、长宽比。

四)用于视频生成的缩放转换器(Scaling transformers for video generation )

Sora 是一个扩散模型(diffusion model),即给定输入的嘈杂补丁(以及文本提示等条件信息,这些信息指导模型如何生成数据),它被训练来预测原始的“干净”补丁。

重要的是,Sora 是一个扩散变压器(diffusion transformer),即扩散模型(diffusion model) + Transformer 模型架构。Transformer 模型架构在语言建模、计算机视觉和图像生成等多个领域都表现出了显著的缩放特性。

ps:这里反复强调 Transformer 模型架构,因为 Transformer 模型架构是一种深度学习架构,特别擅长处理序列数据(如文本或时间序列),并且已经在多种任务中取得了显著的成功,这意味随着数据量和计算能力的增加,模型的质量和性能可以显著提升。关于 Transformer 模型架构可以查看历史的文章


OpenAI 研究人员发现扩散变压器也可以有效地扩展为视频模型,换句话说扩散变换器不仅适用于文本、图像等其他数据类型,还可以很好地应用于视频数据处理。

为了验证扩散变换器的性能如何随着训练的进行而提高,研究人员使用相同的初始条件(固定的种子和输入)来生成视频样本,并展示了在训练的不同阶段生成的这些样本。并且当为扩散变换器提供更多的计算资源(例如,更长的训练时间、更多的数据等)时,它们生成的视频样本的质量会显著提高。

四、Sora 的所有功能

一)支持不同的持续时间、分辨率、纵横比视频

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始宽高比为不同设备创建内容。

效果:视频展示自动切换不同人物:a woman => an adorable kangaroo

{a woman | an adorable kangaroo} wearing blue jeans and a white t-shirt taking a pleasant stroll in Mumbai, India during a beautiful sunset

二)基于语言理解到视频生成

OpenAI 借鉴了在 DALL·E 3 中介绍的重新标注技术,并将其应用于视频。

与 DALL-E 3 相似,OpenAI 还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

效果:

三)使用图像和视频进行提示生成

上面所有视频展示都显示了文字转视频示例。但也可以用其他输入提示 Sora,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

效果:

四)扩展生成的视频

Sora 还能够向前或向后扩展视频,我们可以使用这种方法向前和向后扩展视频,以产生无缝的无限循环。

效果:

五)视频到视频编辑

扩散模型已经实现了多种从文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit应用于 Sora。这种技术使 Sora 能够零镜头转换输入视频的风格和环境。

六)连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。

效果:中间的视频在左侧和右侧的相应视频之间进行插值。

七)图像生成功能

Sora 还能够生成图像。为此,我们将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像,分辨率高达 2048x2048。

八)新兴的仿真功能

OpenAI 发现,视频模型在大规模训练时表现出许多有趣的涌现能力

这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

1、3D 一致性:Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

效果:公众号视频个数受限,不做展示


2、远距离相干性和物体持久性:视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现,Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持它们的外观。

效果:公众号视频个数受限,不做展示


3、与世界互动:Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

效果:公众号视频个数受限,不做展示


4、模拟数字世界:Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

效果:公众号视频个数受限,不做展示

以上这些这些新兴的仿真功能表明,视频模型的持续缩放是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

五、Sora 的局限性

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理特性。比如玻璃破碎、其他交互,如吃食物,并不总是能产生物体状态的正确变化。还有在长时间样本中出现的不连贯性或物体的自发出现。

效果:玻璃破碎

六、Sora 带来的影响

OpenAI 的 Sora 视频生成模型凭借其从文本到视频的转化能力、图像动画化处理以及对细节的高度关注等特性,预期会对以下几个领域产生巨大的影响

一)影视制作与数字内容产业

Sora 能够根据剧本或创意描述直接生成视频片段,极大地加速了前期概念设计和预览环节,减少实际拍摄所需的时间和成本。

在视觉特效制作中,Sora 可以帮助快速生成高质量的 CGI 场景和角色动作,尤其对于需要大量后期合成的内容,能够提供更为便捷的解决方案。

CGI场景(Computer-Generated Imagery  Scene)是指在电影、电视、动画、游戏或任何其他形式的媒体中,通过计算机生成图像技术创建的虚构环境、角色、动作或其他视觉元素。在影视制作领域,CGI用于构建现实世界中难以拍摄或无法实际存在的画面,比如外星生物、奇幻世界、未来城市、爆炸效果、复杂的动态镜头等,如绿巨人浩克的动作场面、钢铁侠的高科技战甲展示和飞行轨迹等。

由于可以根据用户需求定制视频内容,这将有助于影视行业满足观众多样化的需求,例如针对不同地区、语言市场的本地化视频内容生产。

二)在线教育与培训行业

教师和教育机构可以利用 Sora 创建互动性更强的教学视频,基于文本指令快速生成演示实验、动画解释或其他可视化教学材料,增强学习体验。

三)营销与广告业

广告代理商可以迅速生成各种版本的广告创意视频,根据市场反馈调整策略,提高投放效率和效果。

针对短视频平台的传播特点,Sora 能够依据实时热点话题和品牌信息,批量产出具有吸引力的短视频内容,助力企业进行社交媒体营销。

通过分析用户行为数据,为每位用户量身打造符合其兴趣和购买倾向的动态视频广告,提高点击率和转化率。

四)AR/VR技术及元宇宙应用

AR/VR 应用的核心是提供沉浸式体验,这需要大量的3D环境、角色动画以及交互内容。Sora 可以根据用户或开发者输入的文字描述,实时生成相应的虚拟场景和交互元素,极大地加速了内容创作速度,并支持高度个性化的定制,满足不同用户的多元化需求。

元宇宙环境中,场景的动态变化和实时更新至关重要。Sora 可以实时响应用户需求,自动生成新的空间布局、活动场景或互动情节,使得元宇宙内的世界更具活力和可塑性。同时用户可以参与到内容创作中,例如通过文字描述自行创造个人专属的空间或体验,这种高参与度将大大提升用户在元宇宙中的沉浸感和归属感。

七、Sora 的展望

引用 OpenAI 的官方原话对 Sora 进行展望

We believe the capabilities Sora has today demonstrate that continued scaling of video models is a promising path towards the development of capable simulators of the physical and digital world, and the objects, animals and people that live within them.

我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是一条有前途的道路,可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器


最后关注公众号,在公众号发送消息:指令百科,领取一份《ChatGPT指令百科全书.pdf》,含600 条 ChatGPT 通用指令 + 面向软件开发人 200+ 条ChatGPT指令 + 个人成长200+ 条 ChatGPT 指令



同时我创建了一个 AI 学习交流群,尽自己所能提供一个交流平台,方便大家进行 AI 前沿技术的交流,感兴趣可以添加我微信,备注:AI交流,我拉你入群,并领取 10 份价值 199 元 ChatGPT 资料包

OpenAI 官方的 Sora 技术报告链接:https://openai.com/research/video-generation-models-as-world-simulators


关注我,一起成长

既然看到这里,随手点个赞或在看再走呀

本文链接:http://xiaogongchang.cn/chatgpt/1054.html

相关文章