【新智元导读】OpenAI首个AI视频模型Sora横空出世，再次创造历史。这个堪称「世界模型」的技术报告也在今天发布了，不过依然没有公开具体训练细节。昨天白天，

昨天白天，“现实不再存在”开始充斥网络。

“这么快就进入下一个时代了吗？空太爆炸了。”

“这就是电影制作的未来”！

谷歌的Gemini Pro 1.5 才成为众人瞩目的焦点几个小时。太阳一出来，全世界的目光都聚焦在OpenAI 的Sora 身上。

空一出现，所有视频模特都投降了。

仅仅几个小时后，OpenAI Sora的技术报告也出炉了！

其中，“里程碑”也成为报告中的关键词。

报告地址：https://openai.com/research/video- Generation-models-as-world-simulators

技术报告主要介绍了两个方面：

（1）如何将不同类型的视觉数据转换为统一的格式，以便于生成模型的大规模训练；

(2)对Sora的能力和局限性进行定性评估。

不幸的是，该报告不包括模型和实施细节。嗯，OpenAI 还是那个“OpenAI”。

创建虚拟世界模拟器

此前，OpenAI研究人员一直在探索的一个难题是如何将生成模型的大规模训练应用于视频数据？

为此，研究人员同时在不同时长、分辨率和长宽比的视频和图像上训练了文本条件扩散模型。

他们采用了Transformer 架构，可以处理视频和图片中时空片段的潜在代码。

随后诞生的最强大模型Sora具有生成一分钟高质量视频的能力。

OpenAI 研究人员发现了一些令人惊讶的事情：扩大视频生成模型的规模是构建模拟物理世界的通用模拟器的一个非常有前途的方向。

也就是说，如果我们朝这个方向发展，也许LLM真的可以成为世界典范！

索拉有何独特之处？

你应该知道，之前的许多研究使用了各种技术来生成视频数据的生成模型，例如循环网络、生成对抗网络、自回归Transformer 和扩散模型。

他们往往只关注特定类型的视觉数据、较短的视频或固定大小的视频。

Sora与它们的不同之处在于，它是一个通用的视觉数据模型，能够生成各种时长、长宽比和分辨率的视频和图片，甚至长达一分钟的高清视频。

有网友表示，“虽然Sora有一些不完美的地方（可以检测出来），比如从物理效果可以看出它是人工合成的。但是，它会彻底改变很多行业。”

想象一下，能够生成动态的、个性化的广告视频以进行精准定位，这将是一个万亿美元的产业”！

为了验证SORA的效果，行业领导者Gabor Cselle将其与Pika、RunwayML和Stable Video进行了比较。

首先，他采用与OpenAI 示例中相同的提示。

结果显示，其他主流工具生成的视频长度只有5秒左右，而SORA可以在长达17秒的视频场景中保持动作和图像的一致性。

随后他以SORA的启动画面为参考，尝试通过调整命令提示和控制镜头移动，让其他模型产生与SORA类似的效果。

相比之下，SORA 在处理较长的视频场景方面表现明显更好。

看到如此震撼的效果，难怪业内人士感叹SORA在AI视频制作领域确实是革命性的。

将视觉数据转换为补丁

法学硕士之所以成功，是因为他们接受过互联网规模数据的培训并获得了广泛的能力。

其成功的关键之一是令牌的使用，使各种形式的文本、——代码、数学公式和各种自然语言优雅地统一起来。

OpenAI 研究人员从中找到了灵感。

可视化数据生成模型如何继承token的这一优势？

请注意，与LLM 使用的文本标记不同，Sora 使用视觉补丁。

先前的研究表明，补丁在视觉数据建模方面非常有效。

OpenAI 研究人员惊喜地发现patch 这种高度可扩展且有效的表示形式适合训练能够处理多种类型视频和图片的生成模型。

从宏观角度来看，研究人员首先将视频压缩到低维潜在空间，然后将这种表示分解为时空块，从而实现从视频到块的转换。

视频压缩网络

研究人员开发了一个网络来降低视觉数据的维度。

该网络可以接受原始视频作为输入，并输出在时间和空间上压缩的潜在表示。

Sora 在这个压缩的潜在空间上进行训练，然后用于生成视频。

此外，研究人员还设计了相应的解码器模型，将生成的潜在数据转换回像素空间。

潜在空间补丁

对于压缩的输入视频，研究人员提取一系列空间补丁并将它们用作Transformer 令牌。

该方案也适用于图像，因为图像可以被视为只有一帧的视频。

基于补丁表示方法，研究人员使Sora 能够处理不同分辨率、时长和长宽比的视频和图像。

在推理过程中，可以通过在适当大小的网格中适当排列随机初始化的补丁来控制生成视频的大小。

扩展Transformer

因此，视频模型Sora是扩散模型；它可以接受嘈杂的补丁（和条件信息，例如文本提示）作为输入，并随后进行训练以预测原始的“干净”补丁。

重要的是，Sora 是一个基于Transformer 的扩散模型。过去，Transformer 在语言建模、计算机视觉、图像生成等多个领域展现了出色的可扩展性。

令人惊讶的是，在这项工作中，研究人员发现作为视频模型的扩散Transformer 也可以得到有效的扩展。

下图显示了训练期间使用固定种子和输入的视频样本的比较。

随着训练计算资源的增加，样本质量显着提高。

视频表现形式多样

传统上，图像和视频生成技术倾向于将视频统一调整为标准尺寸，例如分辨率为256×256的4秒视频。

然而，OpenAI 研究人员发现，直接在视频的原始大小上进行训练可以带来很多好处。

灵活的视频制作

Sora 可以制作各种尺寸的视频，从宽屏1920×1080 到纵向1080×1920。

这意味着Sora可以制作适应各种设备屏幕比例的内容！

它还可以快速制作较低分辨率的视频原型，然后使用相同的模型创建全分辨率视频。

更优的画面表现

实验发现直接对视频原始比例进行训练可以显着提高视频的画面表现和构图效果。

因此，研究人员将Sora 与将所有训练视频裁剪成正方形的模型版本进行了比较，这是生成模型训练中的常见做法。

相比之下，Sora（右）生成的视频在画面构图上有了明显的进步。

深刻的语言理解

训练文本到视频生成系统需要大量带有文本描述的视频。

研究人员采用了DALL·E 3中的重新标注技术并将其应用到视频中。

首先，研究人员训练了一个可以生成详细描述的注释模型，然后用它为训练集中的所有视频生成文本描述。

他们发现，使用详细视频描述进行训练不仅提高了文本准确性，还提高了视频的整体质量。

与DALL·E 3类似，研究人员也使用GPT将用户的简短提示转换为详细指令，然后输入到视频模型中。

一锤子降维！解密OpenAI超级视频模型Sora技术报告，虚拟世界浮现

这样，Sora就可以根据用户的具体要求生成高质量、准确的视频。

图像和视频的多样性技巧

虽然展示的案例都是Sora将文本转换为视频的演示，但事实上，Sora的功能远不止于此。

它还可以接受其他形式的输入，例如图像或视频。

这使得Sora 能够完成一系列图像和视频编辑任务，例如制作无缝循环视频、为静态图像添加运动、延长时间轴上的视频长度等等。

为DALL·E图像赋予生命

Sora 可以接受图像和文本提示，然后根据这些输入生成视频。

以下是Sora 根据DALL·E 2 和DALL·E 3 图像生成的视频。

戴着贝雷帽和黑色高领毛衣的柴犬

怪物一家五口的插画采用了简洁明快的扁平化设计风格。其中包括毛茸茸的棕色怪物、带有触角的光滑黑色怪物、绿色斑点怪物和小圆点怪物，所有怪物都在热闹的场景中互相玩耍。

写有“SORA”的真实云照片。

一座典雅古老的大殿内，一股巨浪冲天而起，眼看就要破浪而去。两名冲浪者巧妙地在海浪上滑行。

视频时间线的灵活扩展

Sora不仅可以生成视频，还可以沿着时间轴向前或向后延伸视频。

正如您所看到的，演示中的视频都从同一个视频剪辑开始，一直延伸到时间线的过去。尽管他们的开始不同，但他们都归结为同一个结局。

通过这种方法，我们可以将视频向两个方向延伸以创建无缝循环视频。

图像生成能力

同样，Sora 也具有生成图像的能力。

为此，研究人员将高斯噪声块排列在时间范围为一帧的空间网格中。

该模型可以生成不同尺寸的图像，分辨率高达2048×2048像素。

左：一位女士在秋天的特写照片，细节丰富，背景模糊。

右：生机勃勃的珊瑚礁，是色彩缤纷的鱼类和海洋生物的家园。

左：苹果树下一只小老虎的数字绘画，采用美丽的哑光风格。

右图：冰雪覆盖的山村，舒适的小屋和壮丽的北极光，是一张用50mm f/1.2 镜头拍摄的细致而真实的照片。

视频风格和环境的变换

使用扩散模型，可以通过文字提示编辑图像和视频。

在这里，研究人员将一种名为SDEdit 的技术应用于Sora，使其能够在没有任何事先样本的情况下改变视频的风格和环境。

视频之间的无缝连接

此外，您可以使用Sora在两个不同视频之间创建平滑的过渡效果，即使两个视频具有完全不同的主题和场景。

在下面的演示中，中间视频实现了从左视频到右视频的平滑过渡。

一个是城堡，一个是雪中的小屋，非常自然地融为一体。

紧急模拟功能

随着大规模训练的进展，可以发现视频模型展现出许多令人兴奋的新能力。

Sora 利用这些功能来模拟人类、动物和自然环境的某些特征，而不需要为3D 空间、物体等设置特定的规则。

这些能力的出现完全得益于模型规模的扩大。

3D空间的真实感

Sora可以创建具有动态视角变化的视频，使三维空间中的人物和场景元素的运动看起来非常自然。

如下图，一对情侣在东京的雪地里散步。生成的视频与真实的摄像机运动有很大不同。

再比如，Sora 的视野更广阔，可以生成风景和徒步登山的视频，就像无人机拍摄的巨型镜头一样。

视频的一致性和物体的持续存在

在生成长视频时，保持场景和对象随时间的连续性一直是一个挑战。

Sora 很好地处理了这个问题，即使物体被遮挡或离开框架，也能保持物体的存在。

在下面的例子中，窗台前的斑点狗即使有多个路人经过，看起来仍然是一样的。

例如，它可以在视频中多次显示同一角色，并且该角色的外观在整个视频中保持一致。

网络式机器人从前到后旋转，不会跳帧。

与世界的互动

即使索拉也可以模拟影响世界状况的简单行为。

例如，艺术家的樱花树画在水彩纸上留下了持久的笔触。

或者，人吃汉堡时留下的咬痕清晰可见，Sora的产生符合物质世界的规则。

数字世界的模拟

Sora不仅可以模拟现实世界，还可以模拟数字世界，例如电子游戏。

以《我的世界》为例，Sora 在控制玩家角色的同时，可以以高度逼真的方式渲染游戏世界和动态变化。

Sora 可以通过简单的提示来展示这些能力，例如提及“Minecraft”。

这些新功能表明了一个有希望的方向，即继续将视频模型扩展到高级模拟器，以准确模拟物理和数字世界以及其中的生物和物体。

局限性

当然，作为一款模拟器，Sora 还是有很多局限性。

例如，虽然它可以模拟一些基本的物理交互，例如玻璃的破碎，但它还不够准确。

模拟吃食物的过程并不总能准确反映物体状态的变化。

在网站首页，OpenAI 详细介绍了模型的常见问题，例如长视频逻辑不连贯，或者无缘无故出现物体。

最后，OpenAI 表示，Sora 目前的能力证明，不仅增加视频模式的规模是一个令人兴奋的方向。

如果我们继续沿着这个方向前进，也许有一天会出现一种世界模式。

网友：未来的游戏都是用文字做的

OpenAI 已经给出了大量的官方演示，看来Sora 可以为更真实的游戏生成铺平道路。 ——可以仅根据文本描述生成程序游戏。

这既令人兴奋又令人恐惧。

FutureHouseSF联合创始人推测，“也许Sora可以模拟Minecraft。也许下一代游戏机将是一个“Sora盒子”，游戏将以2-3段文字的形式发布。”

OpenAI 技术人员Evan Morikawa 表示，“在OpenAI 发布的Sora 视频中，下面的视频让我大开眼界。通过经典渲染器渲染这个场景非常困难。Sora 模拟物理的方式与我们不同。它肯定还是会做的。”错误，但我没想到会这么现实。”

有网友表示，“‘人人都会成为电影人’这句话，人们并不当真。”

我在15 分钟内制作了这个20 多岁的预告片，使用了OpenAI Sora 的片段、David Attenborough 在Eleven Labs 中的配音以及从iMovie 上的YouTube 采样的一些自然音乐。

还有人说，“五年后，你将能够生成完全沉浸式的世界并实时体验它们，‘Holodeck’很快就会成为现实”！

甚至有人表示，他们被Sora的AI视频所产生的出色效果彻底惊呆了。

“它使现有的视频模型看起来像愚蠢的玩具。每个人都将成为电影制作人。”

“新一代电影制作人即将与OpenAI 的Sora 一起出现。再过10 年，这将是一个有趣的游戏”！

想象一下，一个只有三个人的团队可以在一周内完成一部120分钟的A级故事片的初稿创作和观众测试。这是我们的目标。”

用户评论

此刻不是了i

哇，这Sora技术听起来太酷了！我一直对虚拟世界很感兴趣，希望能尽快体验一下这种降维打击般的体验。

有18位网友表示赞同！

涐们的幸福像流星丶

一直好奇OpenAI的Sora视频模型，看了技术报告后更期待了。虚拟世界的发展，对我们来说是个大进步。

有13位网友表示赞同！

青楼买醉

真是厉害啊，一锤子降维技术，感觉虚拟现实世界的大门又要被推开啦！迫不及待想看看Sora的表现。

有17位网友表示赞同！

颜洛殇

看了Sora的技术报告，感觉OpenAI这次真的做到了突破。虚拟世界浮现，我们离现实与虚拟无缝连接又近了一步。

有8位网友表示赞同！

漫长の人生

有点担忧啊，一锤子降维听起来很厉害，但会不会对现有技术造成冲击呢？希望OpenAI能处理好这个问题。

有16位网友表示赞同！

闷骚闷出味道了

这Sora模型的技术报告，让我对虚拟现实有了新的认识。感觉以后的生活会变得更加丰富多彩。

有9位网友表示赞同！

绳情

OpenAI的Sora模型，一锤子降维听起来很厉害，但我更关心它的实用性，能否真正改变我们的生活。

有11位网友表示赞同！

々爱被冰凝固ゝ

看了Sora的技术报告，感觉虚拟世界的发展又有了新的方向。期待OpenAI带来更多惊喜。

有13位网友表示赞同！

万象皆为过客

一锤子降维技术，听起来像是科幻电影里的情节，现在竟然变成了现实。Sora模型太神奇了！

有8位网友表示赞同！

掉眼泪

虚拟世界浮现，意味着我们离真实体验更近了。Sora技术报告让我对未来充满了期待。

有19位网友表示赞同！

仰望幸福

OpenAI的Sora模型，一锤子降维技术确实厉害，但我更关心的是，这会不会对网络安全造成威胁。

有19位网友表示赞同！

终究会走-

看了Sora的技术报告，感觉虚拟现实的发展越来越快。但也要注意保护用户隐私，防止过度依赖技术。

有7位网友表示赞同！

陌然淺笑

一锤子降维技术，让我想起了《黑客帝国》。Sora模型的出现，会不会让我们进入一个全新的世界呢？

有9位网友表示赞同！

伱德柔情是我的痛。

虚拟世界浮现，意味着我们有了更多的选择。但也要注意，不要过度沉迷于虚拟世界，忽视了现实生活。

有13位网友表示赞同！

短发

Sora技术报告让我对OpenAI刮目相看。一锤子降维技术，预示着未来虚拟现实将有巨大变革。

有6位网友表示赞同！

浮世繁华

OpenAI的Sora模型，一锤子降维技术，听起来太震撼了！感觉虚拟现实行业要迎来新的春天。

有7位网友表示赞同！

忘故

虚拟世界浮现，我们要准备好迎接新的挑战。Sora模型的出现，让我们看到了无限可能。

有13位网友表示赞同！

在哪跌倒こ就在哪躺下

一锤子降维技术，真是让人眼前一亮。OpenAI的Sora模型，会成为虚拟现实领域的下一个里程碑吗？

有19位网友表示赞同！

无寒

看了Sora的技术报告，感觉虚拟现实将进入一个新时代。但也要注意，技术进步不能以牺牲伦理为代价。

有12位网友表示赞同！

{{userData.name}}已认证

一锤子降维！解密OpenAI超级视频模型Sora技术报告，虚拟世界浮现

扩展Transformer

灵活的视频制作

更优的画面表现

为DALL·E图像赋予生命

视频时间线的灵活扩展

视频风格和环境的变换

视频之间的无缝连接

3D空间的真实感

视频的一致性和物体的持续存在

与世界的互动

数字世界的模拟

用户评论

杭州市中小学生街舞超级联赛落幕

洗耳恭听别人说洗耳恭听该怎么幽默回复

{{userData.name}}已认证

扩展Transformer

灵活的视频制作

更优的画面表现

为DALL·E图像赋予生命

视频时间线的灵活扩展

视频风格和环境的变换

视频之间的无缝连接

3D空间的真实感

视频的一致性和物体的持续存在

与世界的互动

数字世界的模拟

用户评论

杭州市中小学生街舞超级联赛落幕

洗耳恭听 别人说洗耳恭听该怎么幽默回复

洗耳恭听别人说洗耳恭听该怎么幽默回复