AIGC行业跟踪:OpenAI发布Sora,引领多模态大模型再突破
VIP专免
敬请阅读末页的重要说明
证券研究报告 | 行业点评报告
2024 年02 月18 日
推荐(维持)
AIGC 行业跟踪
TMT 及中小盘/计算机
OpenAI 正式推出文字生成视频模型 Sora,率先将文生视频长度突破 1分钟,
且 较 其 他 模 型 在 处 理 较 长 视 频 场 景 方 面 的 表 现 更 出 色 。 Sora 为 使 用
Transformer 架构的扩散模型,OpenAI 将视觉数据转为 patches 从而实现大规
模训练。Sora 经过大规模训练后表现出世界模拟能力,表明视频模型的持续扩
展是开发物理和数字世界高性能模拟器的一条有效路径。
❑ OpenAI 正式推出文字生成视频模型 Sora,可生成逼真长视频,且较其他模
型在处理较长视频场景方面的表现更出色。根据 OpenAI 官网的介绍,OpenAI
正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决
需要真实世界交互的问题的模型。Sora 文生视频主要能力包括:1)生成复
杂场景且遵循物理世界规律,2)借助 GPT 能力实现准确理解 Prompt,3)
创建多个镜头并维持镜头间的一致性。相较其他视频模型,Sora 率先将文生
视频长度突破 1分钟,并实现较高的视频质量和一致性。根据 Gabor Cselle
及KEITO 等的对比,Sora 生成视频的长度与质量较 Pika、RunwayML 和
Stable Video 等文生视频模型更出色。
❑ Sora 经过大规模训练后表现出模拟能力。根据 Sora 的技术报告,OpenAI
发现,视频模型在大规模训练时表现出了新兴功能,这些功能使 Sora 能够模
拟现实世界中人、动物和环境的某些方面。具体来说,Sora 的模拟能力体现
在:1)3D 一致性,2)长序列连贯性和目标持久性,3)与世界互动,4)模
拟数字世界。这些功能表明,视频模型的持续扩展是开发物理和数字世界以
及生活在其中的物体、动物和人的高性能模拟器的一条有效路径。
❑ Sora 为使用 Transformer 架构的扩散模型,OpenAI 将视觉数据转为
patches 从而实现大规模训练。模型架构方面,Sora 是一种扩散模型,它从
看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐
对其进行转换。与 GPT 模型类似,Sora 使用 Transformer 架构,从而实现强
扩展性能。Transformer 在各个领域都表现出了卓越的缩放特性,在这项工
作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。在训
练过程中,OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合,
类似于 GPT 中的 token。通过统一表示数据的方式,OpenAI 可以在比以前更
广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。
❑ 投资建议:以Sora 为首的文生视频模型再突破进一步为 AI 应用能力拓展奠
定基础。目前 AIGC 模型端理解能力大幅提速,多模态能力再突破,我们判
断AIGC 技术变革依然是 2024 年计算机产业大趋势,建议关注海外 AI 应用
厂商微软、谷歌、Adobe、Salesforce 等,以及国内成熟 AI 应用厂商金山办
公、科大讯飞、万兴科技等;模型能力加速发展将进一步提升算力需求,建
议关注算力供应商。
❑ 风险提示:AIGC 技术发展不及预期;下游需求不及预期;研发投入不及预期;
行业竞争加剧风险。
行业规模
占比%
股票家数(只)
276
5.4
总市值(十亿元)
2116.4
3.0
流通市值(十亿元)
1801.9
2.9
行业指数
%
1m
6m
12m
绝对表现
-19.0
-33.5
-33.1
相对表现
资料来源:公司数据、招商证券
相关报告
1、《假期科技新闻汇总——计算机
行业周观察 20240217》2024-02-17
2、《亚马逊 FY23Q4 业绩跟踪—营
业利润再创新高,生成式 AI 需求增
长》2024-02-04
3、《MetaFY23Q4 业绩跟踪—业绩
超市场预期,AI 与元宇宙持续发展》
2024-02-04
刘玉萍
S1090518120002
liuyuping@cmschina.com.cn
林语潇
研究助理
linyuxiao1@cmschina.com.cn
-60
-40
-20
0
20
40
Feb/23 Jun/23 Sep/23 Jan/24
(%)
计算机
沪深300
OpenAI 发布 Sora,引领多模态大模型再突破
仅供内部参考,请勿外传
敬请阅读末页的重要说明 2
行业点评报告
正文目录
一、 OpenAI 发布文生视频模型 Sora................................................................ 3
1、 Sora 可生成逼真长视频 .............................................................................. 3
2、 Sora 还可实现编辑、连接、模拟等多种功能 .............................................. 5
3、 技术架构:Sora 为使用 Transformer 架构的扩散模型 ............................... 7
图表目录
图1:Sora 文生视频案例 1 ................................................................................ 3
图2:Sora 文生视频案例 2 ................................................................................ 3
图3:Sora 文生视频案例 3 ................................................................................ 3
图4:Sora 文生视频案例 4 ................................................................................ 3
图5:Sora 在处理较长视频场景方面的表现显著更出色 .................................... 4
图6:Sora 生成不合理的身体动作 .................................................................... 5
图7:Sora 生成视频中动物和人自发出现 ......................................................... 5
图8:Sora 根据图片生成视频案例 1(左图为输入的图片) ............................. 5
图9:Sora 根据图片生成视频案例 2(左图为输入的图片) ............................. 5
图10:Sora 可以编辑输入的视频 ...................................................................... 6
图11:Sora 可以在两个视频间创建插值实现无缝过渡(左右为待连接视频,中
间为 Sora 生成视频) ......................................................................................... 6
图12:Sora 可以生成图像 ................................................................................. 6
图13:Sora 生成视频具有 3D 一致性................................................................ 7
图14:Sora 生成视频具有长序列连贯性和目标持久性(多人经过遮挡后斑点狗
外形维持一致) .................................................................................................. 7
图15:Sora 可以简单的方式与世界互动(例如在画布上留下笔触) ............... 7
图16:Sora 可模拟 Minecraft 游戏等人工过程.................................................. 7
图17:随着训练计算的增加,样本质量显着提高 .............................................. 8
图18:OpenAI 将视频转换为 patches ............................................................... 8
图19:Sora 可生成不同尺寸的视频 .................................................................. 9
仅供内部参考,请勿外传
敬请阅读末页的重要说明 3
行业点评报告
一、OpenAI 发布文生视频模型 Sora
OpenAI 正式推出文字生成视频模型 Sora。根据 OpenAI 官网的介绍,OpenAI
正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决需要
真实世界交互的问题的模型。Sora 是一种文本生成视频模型,能够生成长达一
分钟的视频,同时保持视觉质量并遵循用户的提示。OpenAI 官网目前已展示 48
个Sora 文生视频案例,可以看出 Sora 生成的视频具有较长的视频长度和较高的
视频质量。
1、Sora 可生成逼真长视频
Sora 文生视频主要能力:1)生成复杂场景且遵循物理世界规律:Sora 能够生
成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景,该模
型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
2)准确理解 Prompt:借助 GPT 的能力,Sora 实现对语言的深入理解,使其能
够准确地解释提示词,并生成引人注目的字符来表达充满活力的情感。3)创建
多个镜头并维持镜头间的一致性:Sora 还可以在单个生成的视频中创建多个镜
头,准确地保留角色和视觉风格。
图1:Sora 文生视频案例 1
图2:Sora 文生视频案例 2
资料来源:OpenAI 官网、招商证券
Prompt:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京
街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。
她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反
光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
资料来源:OpenAI 官网、招商证券
Prompt:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它
们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和
雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离
产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳
动物,具有美丽的摄影和景深。
图3:Sora 文生视频案例 3
图4:Sora 文生视频案例 4
仅供内部参考,请勿外传
摘要:
展开>>
收起<<
仅供内部参考,请勿外传CÈg`lš7‘\êYNqA|ûœ$?qA202402e18×É[AIGCûœU–TMTƒ/Ìí/™8oOpenAIþ´×{3““NÊ4føSoraÑ•Ü3“Ê4)gÌE1Ó2¯cPfø}‰8)Ê4&?ºK¶£W{DdSora°Transformer¯rô;føOpenAIÜÊ„ôlgpatches¶—¬£ÖŸf>`dSora`¶£...
相关推荐
-
VIP专享2024-07-09 189
-
VIP专享2024-07-13 66
-
VIP专享2024-07-14 52
-
VIP专享2024-08-04 43
-
VIP专享2024-08-10 68
-
VIP专享2024-09-09 106
-
VIP专享2024-09-12 65
-
VIP专享2024-09-18 74
-
VIP专享2024-09-18 47
-
VIP专免2024-10-05 161
作者:西装暴徒
分类:按报告类型
价格:免费
属性:10 页
大小:1.3MB
格式:PDF
时间:2024-06-30