先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
如果说2023年是AI智能生成文字、图像的爆火元年,那么2024年非常有可能是AI生成视频技术爆火的元年!了解AI的朋友这两天一定被Sora刷屏,没错这是又一款炸裂级别的AI铲平,开发公司是OpenAI,这家公司的另一大产品是chatgpt,这个大家一定很熟悉。Sora是一款由OpenAI推出的人工智能视频生成模型,它能够生成长达一分钟的视频内容,并且能够理解复杂场景和物理规律。ChatGPT是使用提示词,AI智能生成对应的文本DALL E3是使用提示词,AI智能生成对应的图片Sora则是使用提示词,AI智能生成对应的视频,而且可以生成时长可以到一分钟!Sora已经上线多天,官方发布了多个利用Sora生成的视频,效果只能用炸裂来形容,阿飞给大家随便上传几个片段看看。Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
翻译:提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。风格多样,有写实、动漫、虚幻、风景,而且细节很丰富,相信Sora模型很强大,如果训练的好,生成视频的效果基本可以达到专业制作团队的水平。据官方介绍Sora模型在其核心构造上与GPT模型颇为相似,均是基于先进的Transformer架构,从而赋予了Sora卓越的扩展能力。Transformer架构采用的是一种革命性的自注意力机制的神经网络,它能够高效地处理输入文本中各个位置的信息。这种机制使得模型能夾捉到更广泛的全局上下文信息,极大地增强了对文本的理解深度。正是得益于这样的架构,Sora在将文本转化为视频的过程中,能够更加精准地把握并表现出文本中的细节和含义。训练文本到视频生成系统需要大量带有相应文本标题的视频。据官方介绍他们应用了DALL·E3到视频。首先要训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。与DALL·E3相似,我们还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。
技术的事我们不懂,但Sora绝对是人工智能领域又一技术性的飞跃进步!OpenAI 公司还没有公开开放 Sora 的灰度测试,只有仅有部分从事视频、美术工作的人员、以及OpenAI员工获得了Sora访问权限。
相信用不了多久,Sora会进一步放开,说实话,我已经迫不及待想要去体验一番!Sora的出现,势必又会带来一些技术的革新,让我们拭目以待!
本文链接:http://xiaogongchang.cn/chatgpt/1072.html