Sora：站在OpenAI的肩膀上

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

视频生成的GPT-3.5时刻来了。

这技术进步实在太快了。一年前的文生视频是这个样子的：

这是当时非常出圈的“威尔史密斯吃意面”。根本没法看，对吧？

一年之后，OpenAI发布Sora，达到了这样的效果：

整个构图、人物的肤色、光影等等，都相当逼真了。

用同样的提示词让Pika生成，一对比就会发现，这差距太大了。留给同行的时间不多了。

视频生成，在能用和不能用之间，有一道非常明显的槛：真实度。这个真实指的是，是否符合我们的常识，符合真实世界的运行规律，比如物理定律。

你看Sora的效果，这是第一次，视频生成达到了能用的级别。比如这个无人机视角的片段，把它用在vlog里，完全没毛病。

不过，比起赞叹Sora有多牛逼，更值得我们关注的，是OpenAI究竟是怎么做到这一切的。

如果你是国内从业者的话，了解完之后，可能会有点绝望：我们真的有可能追上OpenAI吗？

要理解Sora，咱们得先回到2016年6月16日。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

这一天，OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键：

OpenAI的核心诉求之一，是通过算法和技术，让计算机能够理解我们的世界。

要实现这个目标，生成式模型是最有希望途径之一。

为什么非要“生成”？费曼有一句非常名言：

我没法创造的，我就不理解。

也就是说，如果我能生成极其逼真的视频，那我肯定是足够理解真实世界的。

你看OpenAI最新文章的标题：

把视频生成模型作为世界模拟器，这个思路早在很多很多年前就已经确定了。

然后我们再细看Sora背后的技术就会发现，一切都是这么多年一点一滴积累起来的，是祖上三代的传承。

OpenAI在开发Sora时，跟同行最大的不同是，他们用了Transformer架构。

这个架构能够在大规模数据集上训练，并且微调阶段用的成本也更低，所以特别适合大规模训练。

能够规模化，这是OpenAI做一切事情的前提。他们要的不是学术创新，要的是实实在在地模拟世界、改变世界。

Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为，一个关键因素是，使用了Token的概念。

文本被输入之后，被分割成Token。每个Token都被转化成向量，然后发送给模型。这样一来，Transformer模型就能利用自注意力机制去处理，去捕捉Token之间的复杂关系，从而方便进行统一的大规模训练。

那么，当文本换成了视频，Token就变成了Patch。

OpenAI先对视频进行压缩，否则计算量太大吃不消；然后再对压缩后的视频进行切割，变成Spacetime Patch。

这些Patch，在Transformer模型中充当Token的角色，这样就能像之前那样进行训练了。

Sora仍然属于Diffusion Model，扩散模型。给它输入低精度、充满噪音的Patch，它被训练成能够预测原始的、高清的Patch。

OpenAI管Sora叫Diffusion Transformer，因为他们把两者的优势结合起来了，这是Sora成功的技术基础。

不过，这还没完。Sora就是个“富二代”，投在它身上的资源，比同行多多了。

在训练阶段，需要给视频素材配上文本说明，这样模型才知道那是什么东西。为了提升训练质量，OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。

在使用阶段，模型生成的效果，取决于用户提示词的精准程度。但是，你没法要求用户表达得明明白白、方便模型去理解。于是，OpenAI用自家的GPT去对用户的提示词做更详细的扩写，然后再交给Sora处理。

所以，当你把Sora能成功的要素都放在一起看，就会明白，这根本不是人家突然放个大招的问题：

文生文、文生视频不是两条技术路线吗？结果OpenAI成功合二为一了。

这说明，在这场竞争中，不存在局部战场，只有综合赛道。你不要想着能在某个领域形成局部优势，把巨头挡在外边。是不是很绝望？

训练阶段，有DALL.E 3帮忙开小灶；使用阶段，有GPT打下手。

有哪家公司的模型能有这样的待遇？是不是很绝望？

大模型研发，属于登月级别的难度，比拼的不是人才密度，是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标，提前好多年开始行动。一旦领先，就是全面领先。

这就是我们今天要面对的OpenAI。

距离Sora正式上市，估计还要大半年时间。对其他公司来说，能否在这八九个月内复刻这一套架构。以及，很重要的一点是，能否找到大规模、高质量的视频训练数据。

过去一年，大家拼的是算力、算法。我感觉，拼数据的阶段马上就要来了。

代充值gpt4.0

本文链接：http://xiaogongchang.cn/chatgpt/1085.html

chatgpt需要每月付费吗周鸿祎谈chatgpt完整版 Spellbook官网 OpenAI首席执行官智能传播下载chatgpt需要付费吗 chatgpt现在能下载吗 chatgpt账号还能注册吗 chatgpt4.0果镜像网站 chatgpt的下载注册攻略

Sora：站在OpenAI的肩膀上

相关文章