视频引爆AI革命：【英伟达】高级AI科学家Jim Fan的2024独家预测

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

现任英伟达高级研究科学家兼人工智能代理负责人jim fan，对2024做了几个预测，前两天他预测2024将是机器人崛起的元年，感兴趣的请看英伟达：2024年将是机器人全面崛起反击人类的一年‍‍‍

今天，在2023年即将结束跨入2024年时，他又做了一个预测：2024将是AI视频元年，以下是完整预测：‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

jim fan，

2024年将是视频的元年。虽然机器人和具象代理（AI代理系统能够通过感知和互动来直接操作环境，而不仅仅是通过符号表示或模拟来解决问题）尚处于起步阶段，我认为视频人工智能将在接下来的12个月内迎来突破。这一切涉及两个方面：I/O

"I"：视频输入。GPT-4V对视频的理解仍然相当原始，将其视为一系列离散图像。当然，这在某种程度上是有效的，但效率并不高。视频是一个时空像素体积。它的维度极高，但又充满冗余。

在ECCV 2020中，我提出了一种名为RubiksNet的方法，它简单地沿着3个轴移动视频像素，就像沿着魔方一样，然后在它们之间应用MLPs。没有3D卷积，没有transformers，有点类似于MLP-Mixer的精神。出奇地运行效果好，并且通过我自定义的CUDA内核运行速度很快。

transformers是你所需要的全部吗？如果是，最聪明的减少信息冗余的方法是什么？学习目标应该是什么？下一帧预测与下一个词预测有明显的类比，但是否是最优的？如何将其与语言交叉？如何引导视频学习以应用于机器人和具象人工智能？

社区中对这些问题尚无共识。

"O"：视频输出。在2023年，我们已经看到了一波文本到视频合成的浪潮：WALT（Google），EmuVideo（Meta），Align Your Latents（NVIDIA），@pika_labs（之前我的文章介绍过Pika：华人创办，OpenAI创始人点赞，文字生成视频新高度，颠覆视频创作？）等等，数不胜数。然而，大多数生成的片段仍然非常短。我把它们看作是视频人工智能的"系统1"——无意识的、局部的像素移动。

结语

到2024年，我相信我们将看到具有高分辨率和长时间连贯性的视频生成。这将需要更多的"思考"，即系统2的推理和长期规划（对应System 1负责无意识的感觉运动控制（LLMs））。

离人人都是导演，一个人就是一个电影公司还有多远？

想去感受AI创作视频可以这里https://pika.art/

代充值gpt4.0