SORA AI - 新型文本转视频生成器 - Young Gpt-4 & gpt Plus共享账号 gpt 3.5账号免费使用- 共享苹果ID购买，抖音国际版tiktok运营教程-跨境电商心得分享-Young Gpt-4 & gpt Plus共享账号 gpt 3.5账号免费使用- 共享苹果ID购买，抖音国际版tiktok运营教程-跨境电商心得分享

几天前，OpenAI 发布了 SORA，这是一款文本转视频生成工具，只需编写提示即可生成高清视频！它们生成的视频细节丰富、逼真，令人惊叹。在本文中，我们将深入探讨 SORA 的工作原理、应用和局限性。

什么是 SORA AI？

SORA AI 是一种最先进的模型，专门用于根据文本提示生成短视频。它尚未向公众发布，可供选定人员进行实验和风险评估。不过，Open AI 团队已在其网站上发布了示例视频输出和一份关于 SORA 架构细节的非常简短的技术报告。在日语中，Sora 的意思是“天空”，这个名字象征着它的“无限创意可能性”。

该模型可以执行以下任务：

仅根据文本指令生成视频，
利用现有的静止图像生成视频，准确且注重细节地为图像内容制作动画。
拍摄现有视频并延长它或填充缺失的帧。

按照 Open AI – Sora 的说法，它是理解和模拟现实世界的模型的基础，我们相信这一能力将成为实现 AGI 的重要里程碑。

SORA AI的工作原理

让我们了解 SORA 的工作细节。

降维 – 视频压缩网络

降维基于图像的变分自动编码器和解码器 (VAE) 概念。VAE 的编码器部分采用高维图像并将其映射到称为潜在空间的低维。VAE 的解码器部分采用潜在空间中的向量并对其进行解码以生成与输入图像相同的输出。由于视频只是图像序列，因此相同的概念可以扩展到视频。

视频压缩网络将原始视频作为输入，并输出在时间和空间上经过压缩的潜在表示。Sora 接受训练，随后在此压缩的潜在空间内生成视频。相应的解码器模型将生成的专利映射回像素空间。

时空潜在斑块

Transformers 有文本标记；Sora 有视觉补丁。输入视频被分成固定大小的立方体区域（空间和时间），称为补丁。视觉补丁的概念借鉴了 ViT（Vission Transformer）的设计，并允许它以类似于 Transformers 处理文本等顺序数据的方式处理图像/视频。因此，解压后的视频随后被分解为时空补丁。

1_QJ4eCG920fpYQoL3w_B7xA — 将视频转换为较低维度并将其分成块的过程。

用于视频生成的缩放变压器

这是 SORA 模型的核心。Sora 是一个扩散变换器模型。给定输入的噪声补丁，这些补丁以文本提示等信息为条件，经过训练后，可以预测原始的“干净”补丁。扩散变换器可有效扩展视频模型。随着计算规模的增加，视频质量也会提高。

扩散过程详述如下。

前向扩散：模型以清晰的视频作为输入，并向其中添加噪声。
逆向扩散：该模型旨在从嘈杂的版本中重建原始清晰的视频。
引导生成 – 在编码器和解码器的每个块之间，我们都有一个交叉注意层。此交叉注意层采用文本嵌入的嵌入和前一层的输出，这有助于根据输入文本引导视频生成。

语言理解

SORA 训练了一个高度描述性的字幕制作模型，然后使用 sit 为训练集中的所有视频生成文本字幕。在推理过程中，它利用字幕制作模型将简短的用户提示转换为较长的详细字幕，并发送给视频模型。

SORA AI 的局限性

开放 AI 团队认为 SORA 在以下场景中面临挑战。

难以准确模拟复杂场景的物理现象，并且可能无法理解因果关系的具体实例。
它对物理定律没有隐含的理解，在给出复杂的提示时无法相应地进行模拟。
当给出一个大的复杂提示时，它会很难保持空间准确性，例如混淆左右。
它没有准确地模拟基本相互作用的物理原理。
它很难遵循轨迹。

SORA AI 的应用

像 SORA 这样的文本转视频模型可以应用于以下用例。

增强媒体制作：Sora 可以通过自动提供场景分割和场景增强、色彩校正、自动降噪和灯光调整来促进更快的编辑和后期制作工作，从而提高视觉质量，而无需人工干预。
教育内容：新领域：Sora 可以通过将静态文本或图像轻松转换为动画来帮助提供视觉丰富的内容，从而增强教学方法和学习体验。
广告和营销创新：Sora 可以帮助生成目标驱动的广告活动。
娱乐和讲故事：SORA 可用于将书面脚本转换为全动画或真人视频叙事。SORA 可用于生成场景的不同版本，并探索各种创意选项。
视频编辑和合并：Sora 可以编辑或增强现有视频，或无缝合并两个相关视频。这可用于创意内容创作。

SORA AI 有哪些替代品？

让我们看看其他一些可用的文本转视频模型。

CogVideo：这是通用领域中第一个用于文本到视频生成的开源预训练转换器。CogVideo 建立在强大的文本到图像模型 (CogView2) 之上。它以高帧率生成而闻名。与其他文本到视频模型相比，CogVideo 能够生成每秒帧数更高的视频，从而产生更流畅、更逼真的动作。
Nuwa：采用“扩散优于扩散”的方法来训练模型，利用自回归生成机制从文本输入进行无限的图像和视频合成，从而能够生成长高清视频。
Gen2 By Runway：此模型是内容引导的视频传播模型，可根据所需输出的视觉或文本描述编辑视频。该模型对输出特性提供细粒度控制，并基于一些参考图像进行定制。
Google 的 Lumiere： Google 的新视频生成 AI 模型 Lumiere 使用一种名为 Space-Time-U-Net 或 STUNet 的新扩散模型，该模型可以确定视频中事物的位置（空间）以及它们如何同时移动和变化（时间）