深度报告-20240227-浙商证券-人工智能行业深度报告_从Sora看多模态大模型发展_43页_20mb

VIP专享

3.0 西装暴徒 2024-06-30 91 16 5.34MB 43 页免费

侵权投诉

2024年2月

——人工智能行业深度报告

姓名

刘雯蜀

邮箱

liuwenshu03@stocke.com.cn

证书编号

s1230523020002

证券研究报告

从Sora看多模态大模型发展

行业评级：看好

添加标题

95%

摘要

1、OpenAI发布视频生成模型Sora，视频生成能力实现大幅提升：

•2024年2月16日，OpenAI发布视频生成模型Sora，能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。Sora 模型基于

Diffusion Transformer技术，采用视频压缩网络（Video compression network）、潜空间patch（Spacetime latent patches ）、直接在原始大小训

练（Training on data at its native size）以及重新标注技术（Re-captioning technique）技术，可以图像和视频作为输入，实现制作无缝循环视频、

给静态图片添加动画、扩展视频时间线、视频到视频编辑、视频拼接等功能；

2、国内外厂商相继发力布局多模态大模型领域，2024年文生视频有望进入商业化探索阶段：

•目前除OpenAI之外，谷歌、字节跳动等厂商均已推出具备文生视频能力的多模态模型。基于对Stable Video Diffusion、谷歌W.A.L.T以及其它文

生视频模型的分析，我们认为高质量数据以及底层通用大模型是文生视频能力的重要决定因素，随着Transformer架构的引入，以及3D建模领

域模型的迭代，2024年文生视频有望在时间长度、画面清晰度、内容逼真程度等方面实现显著迭代，打开商业化应用空间。

3、海外已有部分文生视频商业化案例，未来有望覆盖全球千亿级视频内容生成市场：

•Prescient & Strategic Intelligence数据显示，2025年全球数字视频内容市场规模有望达到3271.9亿美元，2021~2025年CAGR约为13.7%。目前海

外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案，应用于企业产品介绍、操作指南、客户服务等场景。我们认为以Sora为代

表的多模态模型有望显著降低视频等数字内容的创作成本，市场空间广阔。

4、建议关注标的：

•（1）大模型厂商：科大讯飞、云从科技、微软、谷歌；（2）多模态应用厂商：万兴科技、虹软科技、焦点科技、Adobe；

风险提示

•1、AI 技术迭代不及预期的风险；2、AI 商业化产品发布不及预期；3、政策不确定性带来的风险；4、下游市场不确定性带来的风险；

多模态AI综述

Partone

研报加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载研报到电脑，查找使用更方便

免费 16人已下载

立即下载

标签： #Sora #人工智能 #大模型

摘要：

2024年2月——人工智能行业深度报告姓名刘雯蜀邮箱liuwenshu03@stocke.com.cn证书编号s1230523020002证券研究报告从Sora看多模态大模型发展行业评级：看好添加标题95%摘要21、OpenAI发布视频生成模型Sora，视频生成能力实现大幅提升：•2024年2月16日，OpenAI发布视频生成模型Sora，能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。Sora模型基于DiffusionTransformer技术，采用视频压缩网络（Videocompressionnetwork）、潜空间patch（Spacetimelatentpatches...

展开>> 收起<<

深度报告-20240227-浙商证券-人工智能行业深度报告_从Sora看多模态大模型发展_43页_20mb.pdf

共43页,预览10页

还剩页未读，继续阅读