欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
这一部分在 Sora 的技术报告的标题和最后一部分「涌现」里有所体现。这次的技术报告,题目直接就是「视频生成模型作为世界模拟器」,而且把 Scaling video generation 称为走向通用物理世界模拟器的 promising path。
在后面的技术报告里,我们看到了一个熟悉的词语:Emerging。按照这一段话的描述,从这一部分开始,Sora 所展现出的能力是超出原有预期的,属于「智能涌现」。
这些能力使得Sora能够模拟出一些来自物理世界的人、动物和环境的某些方面。
同时,OpenAI 也在强调,这些能力完全来自于 Scale。Scale Law 还在上分!
具体来说,OpenAI 阐述了 Sora 的几项能力:
3D一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。
长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。我们发现,Sora通常能够有效地建模短程和长程的依赖关系,尽管并非总是如此。例如,我们的模型可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在一个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。
与世界互动。索拉有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。
模拟数字世界。Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过提示Sora提到“Minecraft”的标题,可以激发这些能力。
结论就是:
这些能力表明,继续扩展视频模型是发展高能力物理和数字世界以及其中的物体、动物和人类的模拟器的有希望的途径。
至于说这个能力,或者说这个发现的意义和重要性,我觉得从两个方面理解,一是数字孪生(空间计算、空间视频),二是世界模型。
去年,NVIDIA 花了蛮大力气宣传他们的 Omniverse,也就是数字孪生的概念。然后就是苹果的 Vision Pro,主推一个空间计算。现在我觉得这些东西都能串联起来了。
数字孪生就是是物理对象、过程或系统在虚拟世界的副本。它不仅仅是一个3D模型,使用传感器不断更新真实世界的数据。提供了一个实时的、虚拟的环境,用于测试变化、培训人员,并在影响真实世界对应物之前识别潜在问题。数字孪生有望改变制造业、工程学,甚至城市规划等领,用于简化流程、预测故障,并根据模拟结果做出更好的决策。
NVIDIA Omniverse是一个专为实时3D协作和模拟设计的平台。Omniverse可以轻松地整合设计工具、大型数据集和先进的人工智能。不同学科的团队可以在共享的虚拟空间中无缝合作。它具有超强的逼真物理模拟,创建出非常精确和响应迅速的数字孪生。公司可以建立虚拟工厂来优化生产、设计更安全、更高效的机器人,或者模拟整个城市的交通模式。改善运营、培训和规划的可能性确实是无限的。
世界模型主要强调的就是不需要专门训练学习而自发认知到的那些「常识」,这些常识可能来自于基因深处,来自于生物体对世界的天然的感知,比如重力,比如色彩,这些天然的常识往往与文字无关,甚至无法用语言准确描述,而与感官感受有关。
世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。换句话说,世界模型对人或者生物来说是不言而喻的从感官习得的常识,但对机器来说就是无法逾越的意识限制,毕竟机器没有生命,不能自主地去感受世界,不能靠直觉在未经训练的情况下自主决策。
之前,很多人质疑大语言模型不是世界模型,原因就在于
那么,世界模型和视频有什么关系?看看 Meta 是怎么做的就好了。提出世界模型概念的 Yann LeCun 在 Meta 于去年 6 月发布了 I-JEPA,被看做是 AI 迈向世界模型的探索。无独有偶,在 Sora 发布的同一天,Meta 端出了V-JEPA:
要理解物理世界,是不能缺少图像和运动画面的,类似于一些只可意会不可言传的感觉,这些感觉不能用语言准确描述或定义,但通过大规模的画面、视频训练,AI 可以自己总结、发现其中的 3D、碰撞等物理规律。
挺有趣的,LeCun 经常喷 ChatGPT,没想到 Sora 在视频理解和生成领域和他的世界模型理念又殊途同归、不谋而合了。
时间仓促,先写这么多,有新想法再来补。
本文链接:http://xiaogongchang.cn/chatgpt/1067.html
ChatGPT Plus付款失败chatgpt能用来检查程序错误吗chatgpt必须要会员吗chatgpt需要会员吗注册chatgpt受到速率限制chatgpt4.0官网智能机器人chatgpt怎么注册chatgpt4.0原理chatgpt代注册或涉违法经营ChatGPT Plus用户