欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
AI研习社报道
编辑:编辑部
过了一个春节,人工智能领域的竞争愈发激烈,国外的AI公司如春笋般发布具有划时代意义的生成模型,想必这几天大家都有看到,Open AI 发布 Sora 视频生成模型,谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型,Meta发布 V-JEPA,这些新模型的发布都吸引了广泛的关注,代表着人工智能领域最新的技术进展和创新成果。
1.Sora: OpenAI的文本到视频模型
Sora 是由 OpenAI 推出的一款新型视频生成模型,其技术基础建立在 GPT 系列的模型之上。这个模型的重要特点是能够实现高质量的视频生成,为视频内容创作提供了全新的可能性。Sora 不仅可以生成逼真的静态图像,还可以将这些图像组合成连贯的视频片段,具有极高的逼真度和多样性。这一技术的突破将为虚拟现实、视频制作和影视行业带来巨大的变革。
从Sora团队上构成来看,有多名应届毕业生挂帅,其中两位负责人Tim Brooks和William (Bill) Peebles都是在2023年刚刚毕业,其中Tim Brooks是大名鼎鼎项目DALL-E 3作者之一,William (Bill) Peebles也联合过谢赛宁提出了Sora的技术架构DiT(Scalable Diffusion Models with Transformers)。除此之外,团队还有多名00后选手,比如Will DePue前年刚从密西根大学计算机系本科毕业。
Tim Brooks
Tim Brooks是伯克利人工智能研究中心获得了博士学位,导师是Alyosha Efros,在那里提出了著名的InstructPix2Pix模型:
William (Bill) Peebles
从William (Bill) Peebles的个人页面可以看出,他之前在伯克利人工智能研究中心完成了我的博士学位,导师是Alyosha Efros。在那之前,在麻省理工学院读本科,师从Antonio Torralba。曾在FAIR, Adobe Research和NVIDIA实习过。在读博士期间,曾获得过美国国家科学基金会研究生研究奖学金项目的资助。在读书期间他发表了多篇代表性生成模型论文。
从Sora模型技术报告的作者署名可以获悉,Sora团队成员如下:
从技术选型上来看,LeCun以及谢赛宁等人认为Sora可以看作是基于谢赛宁等人在去年被 ICCV 收录的论文DiT(Scalable Diffusion Models with Transformers)提出的框架设计而成。
谢赛宁表示该模型并没有创造新颖性,而是优先仅仅是考虑简单性和可扩展性两个方面的因素。这些优先事项提供的不仅仅是概念上的优势,而是简单意味着灵活性。 谢赛宁做了一些推测,称Sora 可能还会使用 Google 的 Patch n' Pack (NaViT)方法,以使 DiT 能够适应可变的分辨率/持续时间/长宽比。 谢赛宁也同样相信Sora 模型可能不需要像人们预期的那样多的 GPU,未来将会迭代非常快。
1. 训练数据:提供的技术报告没有指出训练的数据集,目前有很多游戏引擎数据的猜测,比如还有电影、电影长镜头、纪录片等海量数据。 2. 长视频生成:Sora的一个重大突破是生成超长视频的能力,制作一段2秒的视频和1分钟的视频之间的差异是巨大的。Sora有可能是通过自回归采样的联合帧预测来实现,但这里最主要挑战是如何解决误差累积问题,并能够随着时间的推移保持质量以及一致性。 除此之外,将视觉数据转为 Patches也是其一大创新,比如语言模型LLM的token化,因此,在这项技术中,OpenAI 优先考虑了生成视觉数据的模型如何继承这种方法。 Sora最令人印象深刻的特点是它能够真实地模拟物理世界(OpenAI将其描述为“新兴的模拟能力”)。在此之前,没有任何文本到视频的模式与此相距甚远。谷歌的Lumiere几周前刚刚发布,令人印象深刻,但与Sora相比,它看起来简直平淡无奇。很多传言说,神经辐射场(nerf),一种流行的3D图像重建技术,可能会根据视频的特征(就像物理世界一样)在幕后使用,但我们没有明确的证据。我认为这是程序生成的游戏引擎内容。仅仅使用游戏是不够的,你需要一种生成数据多样性的方法,就像所有合成数据一样。如何思考的一个例子是我们在HuggingFace为强化学习代理构建的东西。数据的多样性可能解锁了生成中的另一个性能级别。 在Sora发布的前几个小时,Google推出下一个版本的Gemini,最高可支持10,000K token超长上下文,全面碾压GPT-4 Turbo。但是Sora具有令人着迷的视觉质量。总之:
Google可以找到一些新的方法,将长上下文的体系结构思想与他们的TPU计算堆栈结合起来,并获得很好的结果。根据Gemini负责人之一Pranav Shyam的说法,这个想法几个月前刚刚萌芽,如果它是在一个小版本(v1.5)而不是v2中发布的话,这里肯定会有更多的空间。比如,Gemini 1.5 Pro在多模态海底捞针测试中的成绩。 需要明确的是,100万上下文长度将很快提供给付费Gemini用户(类似于ChatGPT plus计划),而技术报告中提到了1000万的窗口。我想现在可以先把它扣下来,因为费用比其他任何事情都重要。与此同时,Gemini 1.5 Pro还能够在视频中展现出深度的理解和推理能力,比如,输入一张粗略的涂鸦,要求Gemini找到电影中的对应场景,其也能够在一分钟内找到了答案。
V-JEPA代表了AI的视频学习方法的范式转变,与严重依赖生成式方法的传统模型不同,V-JEPA采用非生成式预测方法来理解视频。比如,V-JEPA当看到下面视频中的动作时,会说“将纸撕成两半”
V-JEPA创新的核心是其处理和理解视频内容的独特方法。与传统的人工智能模型逐帧逐像素地分析视频不同,V-JEPA采用了更全面、更抽象的方法。它的工作原理是预测架构,专注于视频中对象之间的关系和交互,而不是单个像素。“学会学习”,使V-JEPA能够利用被描述任务中获得的知识应用到新的、看不见的任务中,从而提高其适应性。这可以看出是得到了自我监督学习的补充,该模型根据视频数据生成自己的标签。
V-JEPA主要特点
V-JEPA之所以脱颖而出,是因为它具有几个与传统视频分析AI模型不同的关键特性:
1.训练效率:V-JEPA从未标记数据中学习的能力显著减少了训练所需的时间和资源。通过利用自我监督学习,它可以理解和预测视频内容,而不需要精心标记的数据集。
2.抽象理解:V-JEPA不是依赖于详细的像素分析,而是捕捉视频中的抽象概念和关系。这使它能够理解复杂的交互和场景,有助于更深入地理解视频内容。
3.适应性:通过元学习,V-JEPA可以快速适应新的任务和领域。这种灵活性使其成为一个非常宝贵的工具,广泛的应用,从内容分析到交互式人工智能系统。
4.预测能力:V-JEPA的预测架构允许它预测视频中的行动和结果。这一功能对于需要前瞻性和规划的应用至关重要,例如自治系统和高级仿真模型。
像V-JEPA这样的模型的出现预示着一个视频学习的变革时代,充满希望的进步可以重新定义我们与数字内容的互动。在未来,我们可以预见人工智能系统不仅可以像人类一样精确地理解视频内容,而且还可以以创造性和交互式的方式生成和操作视频。多模态学习的整合,将视频与音频和文本分析相结合,将导致更全面和细致入微的人工智能理解。此外,实时视频分析功能将增强监控、自动驾驶车辆和实时决策系统中的应用。随着人工智能模特越来越善于从视频内容中学习并与之互动,我们将看到虚拟和现实体验的融合,为娱乐、教育和交流开辟新的维度。
总的来说,这几天国外 AI 公司发布的这些具有划时代意义的生成模型标志着人工智能技术的不断进步和创新。这些新模型的推出将为各个领域带来更多的可能性和机会,促进人工智能技术在各个行业的广泛应用和发展。让我们期待这些新技术的进一步发展,为人类社会的未来带来更多的希望和可能性。
参考链接:
[1]https://openai.com/research/video-generation-models-as-world-simulators
[3]https://openai.com/sora
[2]https://www.interconnects.ai/p/sora-gemini-and-mistral-next
[4]https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/[5]https://openai.com/sora
本文链接:http://xiaogongchang.cn/chatgpt/1061.html