SORA AI – 新型文本转视频生成器

几天前,OpenAI 发布了 SORA,这是一款文本转视频生成工具,只需编写提示即可生成高清视频!它们生成的视频细节丰富、逼真,令人惊叹。在本文中,我们将深入探讨 SORA 的工作原理、应用和局限性。

什么是 SORA AI?

SORA AI 是一种最先进的模型,专门用于根据文本提示生成短视频。它尚未向公众发布,可供选定人员进行实验和风险评估。不过,Open AI 团队已在其网站上发布了示例视频输出和一份关于 SORA 架构细节的非常简短的技术报告。在日语中,Sora 的意思是“天空”,这个名字象征着它的“无限创意可能性”。

该模型可以执行以下任务:

  • 仅根据文本指令生成视频,
  • 利用现有的静止图像生成视频,准确且注重细节地为图像内容制作动画。
  • 拍摄现有视频并延长它或填充缺失的帧。

按照 Open AI – Sora 的说法,它是理解和模拟现实世界的模型的基础,我们相信这一能力将成为实现 AGI 的重要里程碑。

SORA AI的工作原理

让我们了解 SORA 的工作细节。

降维 – 视频压缩网络

降维基于图像的变分自动编码器和解码器 (VAE) 概念。VAE 的编码器部分采用高维图像并将其映射到称为潜在空间的低维。VAE 的解码器部分采用潜在空间中的向量并对其进行解码以生成与输入图像相同的输出。由于视频只是图像序列,因此相同的概念可以扩展到视频。

视频压缩网络将原始视频作为输入,并输出在时间和空间上经过压缩的潜在表示。Sora 接受训练,随后在此压缩的潜在空间内生成视频。相应的解码器模型将生成的专利映射回像素空间。

时空潜在斑块

Transformers 有文本标记;Sora 有视觉补丁。输入视频被分成固定大小的立方体区域(空间和时间),称为补丁。视觉补丁的概念借鉴了 ViT(Vission Transformer)的设计,并允许它以类似于 Transformers 处理文本等顺序数据的方式处理图像/视频。因此,解压后的视频随后被分解为时空补丁。

1_QJ4eCG920fpYQoL3w_B7xA
将视频转换为较低维度并将其分成块的过程。
文件
ViT 中描述的视觉补丁

用于视频生成的缩放变压器

这是 SORA 模型的核心。Sora 是一个扩散变换器模型。给定输入的噪声补丁,这些补丁以文本提示等信息为条件,经过训练后,可以预测原始的“干净”补丁。扩散变换器可有效扩展视频模型。随着计算规模的增加,视频质量也会提高。

文件
扩散过程

扩散过程详述如下。

  • 前向扩散:模型以清晰的视频作为输入,并向其中添加噪声。
  • 逆向扩散:该模型旨在从嘈杂的版本中重建原始清晰的视频。
  • 引导生成 – 在编码器和解码器的每个块之间,我们都有一个交叉注意层。此交叉注意层采用文本嵌入的嵌入和前一层的输出,这有助于根据输入文本引导视频生成。

语言理解

SORA 训练了一个高度描述性的字幕制作模型,然后使用 sit 为训练集中的所有视频生成文本字幕。在推理过程中,它利用字幕制作模型将简短的用户提示转换为较长的详细字幕,并发送给视频模型。

SORA AI 的局限性

开放 AI 团队认为 SORA 在以下场景中面临挑战。

  • 难以准确模拟复杂场景的物理现象,并且可能无法理解因果关系的具体实例。
  • 它对物理定律没有隐含的理解,在给出复杂的提示时无法相应地进行模拟。
  • 当给出一个大的复杂提示时,它会很难保持空间准确性,例如混淆左右。
  • 它没有准确地模拟基本相互作用的物理原理。
  • 它很难遵循轨迹。

SORA AI 的应用

像 SORA 这样的文本转视频模型可以应用于以下用例。

  • 增强媒体制作:Sora 可以通过自动提供场景分割和场景增强、色彩校正、自动降噪和灯光调整来促进更快的编辑和后期制作工作,从而提高视觉质量,而无需人工干预。
  • 教育内容:新领域:Sora 可以通过将静态文本或图像轻松转换为动画来帮助提供视觉丰富的内容,从而增强教学方法和学习体验。
  • 广告和营销创新:Sora 可以帮助生成目标驱动的广告活动。
  • 娱乐和讲故事:SORA 可用于将书面脚本转换为全动画或真人视频叙事。SORA 可用于生成场景的不同版本,并探索各种创意选项。
  • 视频编辑和合并:Sora 可以编辑或增强现有视频,或无缝合并两个相关视频。这可用于创意内容创作。

SORA AI 有哪些替代品?

让我们看看其他一些可用的文本转视频模型。

  1. CogVideo:这是通用领域中第一个用于文本到视频生成的开源预训练转换器。CogVideo 建立在强大的文本到图像模型 (CogView2) 之上。它以高帧率生成而闻名。与其他文本到视频模型相比,CogVideo 能够生成每秒帧数更高的视频,从而产生更流畅、更逼真的动作。
  2. Nuwa:采用“扩散优于扩散”的方法来训练模型,利用自回归生成机制从文本输入进行无限的图像和视频合成,从而能够生成长高清视频。
  3. Gen2 By Runway:此模型是内容引导的视频传播模型,可根据所需输出的视觉或文本描述编辑视​​频。该模型对输出特性提供细粒度控制,并基于一些参考图像进行定制。
  4. Google 的 Lumiere: Google 的新视频生成 AI 模型 Lumiere 使用一种名为 Space-Time-U-Net 或 STUNet 的新扩散模型,该模型可以确定视频中事物的位置(空间)以及它们如何同时移动和变化(时间)

SORA AI 有哪些风险?

  1. 恶意内容:Sora 可用于创建令人信服的虚假内容,这些内容充满仇恨、偏见或有害。
  2. 社会影响:Sora 可用于传播错误信息,影响现代社会的基本结构,如选举、经济等。
  3. Deepfake 视频:这进一步引发了人们对 Deepfake 视频威胁的担忧,这已经成为了通用人工智能技术的一个问题
  4. 侵犯隐私:它可能被用来冒充个人,以达到他们不知道的目的
  5. 身份盗窃:Sora 可能被利用于各种恶意目的,包括身份盗窃、冒充或创建虚假账户进行欺诈活动。

如何访问 SORA AI?

Sora尚未向公众开放。它尚未开源。访问权限受到限制。只有选定的红队成员才能访问它,以评估危害或风险的关键区域。此外,许多视觉艺术家、设计师和电影制作人也获得了访问权限,以获得有关如何改进模型以最大程度地帮助创意专业人士的反馈。

OpenAI Sora 对未来意味着什么?

随着 SORA 的发布,人们对文本转视频生成技术的兴趣又重新燃起。它为大大小小的竞争对手树立了标杆。短期内,我们相信许多大型竞争对手,如 Google、Meta,将升级其当前的文本转视频模型,以匹配或超越 SORA 的功能。它还将推动开源文本转视频模型的发展。

随着这些尖端技术的进步,它将对内容创作和编辑工作产生影响。SORA 等工具可用于

  • 加快整个娱乐行业的生产速度。
  • 协助制作原型并将故事板想法形象化。
  • 根据个人品味和喜好创建个性化内容
  • 在学术领域提供可视化增强的文本内容

OpenAI 针对 SORA AI 模型的安全措施

虽然该模型是 SOTA 并且令人印象深刻,但它引发了人们对透明度、问责制和道德方面的担忧。Open AI 认识到这种先进技术可能被滥用,并正在采取以下步骤来解决这些问题。

  • 该团队正在与红队成员(虚假信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试
  • 该团队正在构建工具来帮助检测误导性内容,例如可以判断视频何时由 Sora 生成的检测分类器
  • 该团队正在利用已经为类似产品构建的现有安全方法,例如使用 DALL·E 3,这也适用于 Sora。
  • 该团队正在训练模型以拒绝违反我们使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的提示。

 

※※免费获取 GPTGPT&Claude账号※※

本站提供免费ChatGPT共享账号,号池链接:https://chatai.qqyunsd.com

如果想使用低价稳定个人独立账号,可进入本站小店进行购买,全网最低价账号,全程售后保障,客服跟进

小店链接:https://store.aiprois.com

客服微信:youngchatgpt

本站官网:https://aiprois.com/

gpt-4 chatgpt plus共享账号 10人拼车 gpt-4模型 plus账号 30天有效月租 x,gpt4o价格,更改chatgpt密码,,chatgpt 修改密码,chatgpt 改密码,chatgptplus怎么充值,学生购买gpt,gpt便宜账号

© 版权声明
THE END
喜欢就支持一下吧
点赞715 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容