欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
这技术进步实在太快了。一年前的文生视频是这个样子的:这是当时非常出圈的“威尔史密斯吃意面”。根本没法看,对吧?一年之后,OpenAI发布Sora,达到了这样的效果:用同样的提示词让Pika生成,一对比就会发现,这差距太大了。留给同行的时间不多了。视频生成,在能用和不能用之间,有一道非常明显的槛:真实度。这个真实指的是,是否符合我们的常识,符合真实世界的运行规律,比如物理定律。你看Sora的效果,这是第一次,视频生成达到了能用的级别。比如这个无人机视角的片段,把它用在vlog里,完全没毛病。不过,比起赞叹Sora有多牛逼,更值得我们关注的,是OpenAI究竟是怎么做到这一切的。如果你是国内从业者的话,了解完之后,可能会有点绝望:我们真的有可能追上OpenAI吗?要理解Sora,咱们得先回到2016年6月16日。这一天,OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键:OpenAI的核心诉求之一,是通过算法和技术,让计算机能够理解我们的世界。也就是说,如果我能生成极其逼真的视频,那我肯定是足够理解真实世界的。把视频生成模型作为世界模拟器,这个思路早在很多很多年前就已经确定了。然后我们再细看Sora背后的技术就会发现,一切都是这么多年一点一滴积累起来的,是祖上三代的传承。OpenAI在开发Sora时,跟同行最大的不同是,他们用了Transformer架构。这个架构能够在大规模数据集上训练,并且微调阶段用的成本也更低,所以特别适合大规模训练。能够规模化,这是OpenAI做一切事情的前提。他们要的不是学术创新,要的是实实在在地模拟世界、改变世界。Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为,一个关键因素是,使用了Token的概念。文本被输入之后,被分割成Token。每个Token都被转化成向量,然后发送给模型。这样一来,Transformer模型就能利用自注意力机制去处理,去捕捉Token之间的复杂关系,从而方便进行统一的大规模训练。那么,当文本换成了视频,Token就变成了Patch。OpenAI先对视频进行压缩,否则计算量太大吃不消;然后再对压缩后的视频进行切割,变成Spacetime Patch。这些Patch,在Transformer模型中充当Token的角色,这样就能像之前那样进行训练了。Sora仍然属于Diffusion Model,扩散模型。给它输入低精度、充满噪音的Patch,它被训练成能够预测原始的、高清的Patch。OpenAI管Sora叫Diffusion Transformer,因为他们把两者的优势结合起来了,这是Sora成功的技术基础。不过,这还没完。Sora就是个“富二代”,投在它身上的资源,比同行多多了。在训练阶段,需要给视频素材配上文本说明,这样模型才知道那是什么东西。为了提升训练质量,OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。在使用阶段,模型生成的效果,取决于用户提示词的精准程度。但是,你没法要求用户表达得明明白白、方便模型去理解。于是,OpenAI用自家的GPT去对用户的提示词做更详细的扩写,然后再交给Sora处理。所以,当你把Sora能成功的要素都放在一起看,就会明白,这根本不是人家突然放个大招的问题:文生文、文生视频不是两条技术路线吗?结果OpenAI成功合二为一了。这说明,在这场竞争中,不存在局部战场,只有综合赛道。你不要想着能在某个领域形成局部优势,把巨头挡在外边。是不是很绝望?训练阶段,有DALL.E 3帮忙开小灶;使用阶段,有GPT打下手。大模型研发,属于登月级别的难度,比拼的不是人才密度,是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标,提前好多年开始行动。一旦领先,就是全面领先。距离Sora正式上市,估计还要大半年时间。对其他公司来说,能否在这八九个月内复刻这一套架构。以及,很重要的一点是,能否找到大规模、高质量的视频训练数据。过去一年,大家拼的是算力、算法。我感觉,拼数据的阶段马上就要来了。
本文链接:http://xiaogongchang.cn/chatgpt/1085.html
chatgpt需要每月付费吗周鸿祎谈chatgpt完整版Spellbook官网OpenAI首席执行官智能传播下载chatgpt需要付费吗chatgpt现在能下载吗chatgpt账号还能注册吗chatgpt4.0果镜像网站chatgpt的下载注册攻略