SORA AI新型文本转视频生成器

几天前OpenAI 发布了 SORA这是一款文本转视频生成工具只需编写提示即可生成高清视频!它们生成的视频细节丰富逼真令人惊叹在本文中我们将深入探讨 SORA 的工作原理应用和局限性

什么是 SORA AI?

SORA AI 是一种最先进的模型专门用于根据文本提示生成短视频它尚未向公众发布可供选定人员进行实验和风险评估不过Open AI 团队已在其网站上发布了示例视频输出和一份关于 SORA 架构细节的非常简短的技术报告在日语中Sora 的意思是“天空”这个名字象征着它的“无限创意可能性”

该模型可以执行以下任务

  • 仅根据文本指令生成视频
  • 利用现有的静止图像生成视频准确且注重细节地为图像内容制作动画
  • 拍摄现有视频并延长它或填充缺失的帧

按照 Open AISora 的说法它是理解和模拟现实世界的模型的基础我们相信这一能力将成为实现 AGI 的重要里程碑

SORA AI的工作原理

让我们了解 SORA 的工作细节

降维视频压缩网络

降维基于图像的变分自动编码器和解码器 (VAE) 概念VAE 的编码器部分采用高维图像并将其映射到称为潜在空间的低维VAE 的解码器部分采用潜在空间中的向量并对其进行解码以生成与输入图像相同的输出由于视频只是图像序列因此相同的概念可以扩展到视频

视频压缩网络将原始视频作为输入并输出在时间和空间上经过压缩的潜在表示Sora 接受训练随后在此压缩的潜在空间内生成视频相应的解码器模型将生成的专利映射回像素空间

时空潜在斑块

Transformers 有文本标记Sora 有视觉补丁输入视频被分成固定大小的立方体区域(空间和时间)称为补丁视觉补丁的概念借鉴了 ViT(Vission Transformer)的设计并允许它以类似于 Transformers 处理文本等顺序数据的方式处理图像/视频因此解压后的视频随后被分解为时空补丁

1_QJ4eCG920fpYQoL3w_B7xA
将视频转换为较低维度并将其分成块的过程
文件
ViT 中描述的视觉补丁

用于视频生成的缩放变压器

这是 SORA 模型的核心Sora 是一个扩散变换器模型给定输入的噪声补丁这些补丁以文本提示等信息为条件经过训练后可以预测原始的“干净”补丁扩散变换器可有效扩展视频模型随着计算规模的增加视频质量也会提高

文件
扩散过程

扩散过程详述如下

  • 前向扩散模型以清晰的视频作为输入并向其中添加噪声
  • 逆向扩散该模型旨在从嘈杂的版本中重建原始清晰的视频
  • 引导生成在编码器和解码器的每个块之间我们都有一个交叉注意层此交叉注意层采用文本嵌入的嵌入和前一层的输出这有助于根据输入文本引导视频生成

语言理解

SORA 训练了一个高度描述性的字幕制作模型然后使用 sit 为训练集中的所有视频生成文本字幕在推理过程中它利用字幕制作模型将简短的用户提示转换为较长的详细字幕并发送给视频模型

SORA AI 的局限性

开放 AI 团队认为 SORA 在以下场景中面临挑战

  • 难以准确模拟复杂场景的物理现象并且可能无法理解因果关系的具体实例
  • 它对物理定律没有隐含的理解在给出复杂的提示时无法相应地进行模拟
  • 当给出一个大的复杂提示时它会很难保持空间准确性例如混淆左右
  • 它没有准确地模拟基本相互作用的物理原理
  • 它很难遵循轨迹

SORA AI 的应用

像 SORA 这样的文本转视频模型可以应用于以下用例

  • 增强媒体制作Sora 可以通过自动提供场景分割和场景增强色彩校正自动降噪和灯光调整来促进更快的编辑和后期制作工作从而提高视觉质量而无需人工干预
  • 教育内容新领域Sora 可以通过将静态文本或图像轻松转换为动画来帮助提供视觉丰富的内容从而增强教学方法和学习体验
  • 广告和营销创新Sora 可以帮助生成目标驱动的广告活动
  • 娱乐和讲故事SORA 可用于将书面脚本转换为全动画或真人视频叙事SORA 可用于生成场景的不同版本并探索各种创意选项
  • 视频编辑和合并Sora 可以编辑或增强现有视频或无缝合并两个相关视频这可用于创意内容创作

SORA AI 有哪些替代品?

让我们看看其他一些可用的文本转视频模型

  1. CogVideo这是通用领域中第一个用于文本到视频生成的开源预训练转换器CogVideo 建立在强大的文本到图像模型 (CogView2) 之上它以高帧率生成而闻名与其他文本到视频模型相比CogVideo 能够生成每秒帧数更高的视频从而产生更流畅更逼真的动作
  2. Nuwa采用“扩散优于扩散”的方法来训练模型利用自回归生成机制从文本输入进行无限的图像和视频合成从而能够生成长高清视频
  3. Gen2 By Runway此模型是内容引导的视频传播模型可根据所需输出的视觉或文本描述编辑视​​频该模型对输出特性提供细粒度控制并基于一些参考图像进行定制
  4. Google 的 Lumiere Google 的新视频生成 AI 模型 Lumiere 使用一种名为 Space-Time-U-Net 或 STUNet 的新扩散模型该模型可以确定视频中事物的位置(空间)以及它们如何同时移动和变化(时间)

SORA AI 有哪些风险?

  1. 恶意内容Sora 可用于创建令人信服的虚假内容这些内容充满仇恨偏见或有害
  2. 社会影响Sora 可用于传播错误信息影响现代社会的基本结构如选举经济等
  3. Deepfake 视频这进一步引发了人们对 Deepfake 视频威胁的担忧这已经成为了通用人工智能技术的一个问题
  4. 侵犯隐私它可能被用来冒充个人以达到他们不知道的目的
  5. 身份盗窃Sora 可能被利用于各种恶意目的包括身份盗窃冒充或创建虚假账户进行欺诈活动

如何访问 SORA AI?

Sora尚未向公众开放它尚未开源访问权限受到限制只有选定的红队成员才能访问它以评估危害或风险的关键区域此外许多视觉艺术家设计师和电影制作人也获得了访问权限以获得有关如何改进模型以最大程度地帮助创意专业人士的反馈

OpenAI Sora 对未来意味着什么?

随着 SORA 的发布人们对文本转视频生成技术的兴趣又重新燃起它为大大小小的竞争对手树立了标杆短期内我们相信许多大型竞争对手如 GoogleMeta将升级其当前的文本转视频模型以匹配或超越 SORA 的功能它还将推动开源文本转视频模型的发展

随着这些尖端技术的进步它将对内容创作和编辑工作产生影响SORA 等工具可用于

  • 加快整个娱乐行业的生产速度
  • 协助制作原型并将故事板想法形象化
  • 根据个人品味和喜好创建个性化内容
  • 在学术领域提供可视化增强的文本内容

OpenAI 针对 SORA AI 模型的安全措施

虽然该模型是 SOTA 并且令人印象深刻但它引发了人们对透明度问责制和道德方面的担忧Open AI 认识到这种先进技术可能被滥用并正在采取以下步骤来解决这些问题

  • 该团队正在与红队成员(虚假信息仇恨内容和偏见等领域的专家)合作他们将对模型进行对抗性测试
  • 该团队正在构建工具来帮助检测误导性内容例如可以判断视频何时由 Sora 生成的检测分类器
  • 该团队正在利用已经为类似产品构建的现有安全方法例如使用 DALL·E 3,这也适用于 Sora
  • 该团队正在训练模型以拒绝违反我们使用政策的文本输入提示例如要求极端暴力性内容仇恨图像名人肖像或他人 IP 的提示

 

※※免费获取 GPTGPT&Claude账号※※

本站提供免费ChatGPT共享账号号池链接https://chatai.qqyunsd.com

如果想使用低价稳定个人独立账号可进入本站小店进行购买全网最低价账号全程售后保障客服跟进

小店链接https://store.aiprois.com

客服微信youngchatgpt

本站官网https://aiprois.com/

gpt-4 chatgpt plus gemeinsames Konto 10 Personen Fahrgemeinschaft gpt-4-Modell plus Konto gültig für 30 Tage Monatsmiete x,gpt4o-Preis,Chatgpt-Passwort ändern,,chatgpt 修改密码,chatgpt Passwort ändern,So laden Sie chatgptplus auf,Studenten kaufen gpt,GPT-günstiges Konto

© 版权声明
THE END
喜欢就支持一下吧
Wie715 分享
Kommentar 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容