AIGC行业跟踪:OpenAI发布Sora,引领多模态大模型再突破

VIP专免
3.0 西装暴徒 2024-06-30 26 1.3MB 10 页 免费
侵权投诉
敬请阅读末页的重要说明
证券研究报告 | 行业点评报告
2024 02 18
推荐(维持)
AIGC 行业跟踪
TMT 及中小盘/计算机
OpenAI 正式推出文字生成视频模型 Sora,率先将文生视频长度突破 1分钟,
且 较 其 他 模 型 在 处 理 较 长 视 频 场 景 方 面 的 表 现 更 出 色 。 Sora 为 使 用
Transformer 架构的扩散模型,OpenAI 将视觉数据转为 patches 从而实现大规
模训练。Sora 经过大规模训练后表现出世界模拟能力,表明视频模型的持续扩
展是开发物理和数字世界高性能模拟器的一条有效路径。
OpenAI 正式推出文字生成视频模型 Sora,可生成逼真长视频,且较其他模
型在处理较长视频场景方面的表现更出色。根据 OpenAI 官网的介绍OpenAI
正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决
需要真实世界交互的问题的模型Sora 文生视频主要能力包括:1)生成复
杂场景且遵循物理世界规律,2)借助 GPT 能力实现准确理解 Prompt3
创建多个镜头并维持镜头间的一致性。相较其他视频模型Sora 率先将文生
视频长度突破 1钟,并实现较高的视频质量和一致性。根据 Gabor Cselle
KEITO 等的对比Sora 生成视频的长度与质量PikaRunwayML
Stable Video 文生视频模型更出色。
Sora 经过大规模训练后表现出模拟能力根据 Sora 的技术报告,OpenAI
发现,视频模型在大规模训练时表现出了新兴功能,这些功能使 Sora 能够模
拟现实世界中人、动物和环境的某些方面。具体来说,Sora 的模拟能力体现
在:13D 一致性,2长序列连贯性和目标持久性3与世界互动,4
拟数字世界。这些功能表明,视频模型的持续扩展是开发物理和数字世界以
及生活在其中的物体、动物和人的高性能模拟器的一条有效路径。
Sora 为使用 Transformer 架构的扩散模型,OpenAI 将视觉数据转为
patches 从而实现大规模训练。模型架构方面,Sora 是一种扩散模型,它从
看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐
对其进行转换。GPT 型类似,Sora 使用 Transformer 架构从而实现强
扩展性能。Transformer 在各个领域都表现出了卓越的缩放特性,在这项工
作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。在训
练过程中,OpenAI 将视频和图像表示为称patch 的较小数据单元的集合,
类似于 GPT 中的 token通过统一表示数据的方式,OpenAI 以在比以前更
广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。
投资建议:Sora 为首的文生视频模型再突破进一步为 AI 应用能力拓展奠
定基础。目前 AIGC 模型端理解能力大幅提速,多模态能力再突破,我们判
AIGC 术变革依然是 2024 年计算机产业大趋势,建议关注海外 AI 应用
厂商微软、谷歌AdobeSalesforce ,以及国内成熟 AI 应用厂商金山办
公、科大讯飞、万兴科技等;模型能力加速发展将进一步提升算力需求,建
议关注算力供应商。
风险提示:AIGC 技术发展不及预期;下游需求不及预期;研发投入不及预期;
行业竞争加剧风险。
行业规模
占比%
股票家数(只)
276
5.4
总市值(十亿元)
2116.4
3.0
流通市值(十亿元)
1801.9
2.9
行业指数
%
12m
绝对表现
-33.1
相对表现
资料来源:公司数据、招商证券
相关报告
1、《假期科技新闻汇总——计算机
行业周观察 202402172024-02-17
2、《亚马逊 FY23Q4 业绩跟踪—营
业利润再创新高,生成式 AI 需求增
长》2024-02-04
3、《MetaFY23Q4 业绩跟踪—业绩
超市场预期,AI 与元宇宙持续发展》
2024-02-04
刘玉萍
S1090518120002
liuyuping@cmschina.com.cn
林语潇
研究助理
linyuxiao1@cmschina.com.cn
-60
-40
-20
0
20
40
Feb/23 Jun/23 Sep/23 Jan/24
(%)
计算机
沪深300
OpenAI 发布 Sora,引领多模态大模型再突破
仅供内部参考,请勿外传
敬请阅读末页的重要说明 2
行业点评报告
正文目录
一、 OpenAI 布文生视频模Sora................................................................ 3
1 Sora 可生成逼真长视 .............................................................................. 3
2 Sora 还可实现编辑、连接、模拟等多种功能 .............................................. 5
3 技术架构:Sora 为使用 Transformer 架构的扩散模型 ............................... 7
图表目录
1Sora 生视频案例 1 ................................................................................ 3
2Sora 生视频案例 2 ................................................................................ 3
3Sora 生视频案例 3 ................................................................................ 3
4Sora 生视频案例 4 ................................................................................ 3
5Sora 处理较长视频场景方面的表现显著更出色 .................................... 4
6Sora 成不合理的身体动作 .................................................................... 5
7Sora 成视频中动物和人自发出现 ......................................................... 5
8Sora 据图片生成视频案例 1(左图为输入的图片 ............................. 5
9Sora 据图片生成视频案例 2(左图为输入的图片 ............................. 5
10Sora 可以编辑输入的视 ...................................................................... 6
11Sora 可以在两个视频间创建插值实现无缝过渡(左右为待连接视频,
间为 Sora 生成视频) ......................................................................................... 6
12Sora 可以生成图像 ................................................................................. 6
13Sora 生成视频具有 3D 致性................................................................ 7
14Sora 生成视频具有长序列连贯性和目标持久性(多人经过遮挡后斑点狗
外形维持一致) .................................................................................................. 7
15Sora 可以简单的方式与世界互动(例如在画布上留下笔触) ............... 7
16Sora 可模Minecraft 游戏等人工过程.................................................. 7
17:随着训练计算的增加,样本质量显着提高 .............................................. 8
18OpenAI 将视频转换为 patches ............................................................... 8
19Sora 可生成不同尺寸的视频 .................................................................. 9
仅供内部参考,请勿外传
敬请阅读末页的重要说明 3
行业点评报告
一、OpenAI 发布文生视频模型 Sora
OpenAI 正式推出文字生成视频模型 Sora根据 OpenAI 官网的介绍,OpenAI
正在教人工智能理解和模拟运动中的物理世界旨在训练能够帮助人们解决需要
真实世界交互的问题的模型。Sora 是一种文本生成视频模型,能够生成长达一
分钟的视频,同时保持视觉质量并遵循用户的提示。OpenAI 官网目前已展示 48
Sora 文生视频案例,可以看出 Sora 成的视频具有较长的视频长度和较高的
视频质量。
1Sora 可生成逼真长视频
Sora 文生视频主要能力:1)生成复杂场景且遵循物理世界规律:Sora 能够生
成具有多个角色定类型的运动以及主体和背景的准确细节的复杂场景,该模
型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式
2准确理解 Prompt借助 GPT 的能力,Sora 实现对语言的深入理解,使其能
够准确地解释提示词,并生成引人注目的字符来表达充满活力的情感。3)创建
多个镜头并维持镜头间的一致性:Sora 还可以在单个生成的视频中创建多个
头,准确地保留角色和视觉风格
1Sora 文生视频案例 1
2Sora 文生视频案例 2
资料来源:OpenAI 官网、招商证券
Prompt一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京
街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。
她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反
光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
资料来源:OpenAI 官网、招商证券
Prompt几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,
们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和
雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离
产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳
动物,具有美丽的摄影和景深。
3Sora 文生视频案例 3
4Sora 文生视频案例 4
仅供内部参考,请勿外传

标签: #AI #Sora #大模型

摘要:

仅供内部参考,请勿外传C Èg`lš7‘\ êYNqA|ûœ$ ?qA2024­02e18 ×É[AIGCûœU–TMTƒ/Ìí/™8oOpenAIþ ´×{3“ “N Ê 4føSoraÑ•Ü3 “ Ê 4)gÌ E1Ó2 ¯ cPfø}‰8) Ê 4&?ºK¶£W{ DdSora °Transformer¯rô ;føOpenAIÜ Ê„ ôlgpatches¶— ¬£ÖŸf>`dSora`¶£...

展开>> 收起<<
AIGC行业跟踪:OpenAI发布Sora,引领多模态大模型再突破.pdf

共10页,预览3页

还剩页未读, 继续阅读

作者:西装暴徒 分类:按报告类型 价格:免费 属性:10 页 大小:1.3MB 格式:PDF 时间:2024-06-30

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 10
客服
关注