浙商证券-人形机器人行业专题报告(一)-Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”-240314-11页

VIP专享

3.0 西装暴徒 2024-06-30 89 16 796.78KB 9 页免费

侵权投诉

证券研究报告 | 行业专题 | 机械设备

http://www.stocke.com.cn

1/11

请务必阅读正文之后的免责条款部分

机械设备

报告日期：2024 年03 月14 日

Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”

——人形机器人行业专题报告（一）

投资要点

❑ Figure × OpenAI 的最新视频呈现了什么亮点？

Figure01 最新视频表明了大语言-视觉模型介入人形机器人后，所带来的极快升

级。近日人形机器人初创公司 Figure 公布其与 OpenAI 合作 13 天后的机器人最新

视频，视频中 OpenAI 将其端到端的大语言-视觉模型移植到 Figure 01 上，Figure

01 能够 1)理解区分面前的场景对象；2)动作上区分苹果和一堆纸团；3)理解自身

行为的目的；4)判断下一步的响应动作；5)评价自身行为；6)手指灵活度足够且动

作较快。就目前所呈现的状态，我们认为人形机器人有望打开 C端市场。

❑ 大语言-视觉模型对 Figure01 的加持体现在哪？

源自 OpenAI 端到端的大语言-视觉模型是本次 Figure01 升级的核心，从语言输

入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些

结果，再加载其他程序处理这些结果。其中 Open 的大模型提供负责提供视觉推理

和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作，值得

注意的是机器人所有行为均源自于自身学习过的。升级主要体现在以下两方面：

(1)语言交互流程：研究人员将机器人摄像头中的图像输入、机载麦克风捕获的语

音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型(VLM)

中，由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的

方式将其回复给人类。

(2)动作处理流程：大模型能力可以使机器人拥有短期记忆，以便联系和理解前后

的行为关系。首先，互联网预训练模型对图像和文本进行常识推理，以得出高级

计划；其次，大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角

度)，充当高速设定点，供更高速率的全身控制器跟踪，以确保安全和稳定。

❑ Figure 公司背景和优势如何？

Figure 由Brett Adcock 于2022 年创立，总部位于加利福尼亚，其目标是开发能够

在不同环境中工作并处理各种任务的通用型人形机器人，覆盖仓储到零售。团队

主要来自 IHMC、波士顿动力、特斯拉、Waymo 和谷歌 X等机构。在融资、技术

及落地方面，Figure 获得来自英特尔、微软、OpenAI、英伟达等科技巨头和宝马

汽车的支持。其中 Figure 与OpenAI 达成协议，共同开发“下一代人形机器人的人

工智能模型”，GPT 有望成为机器人大脑；微软为 Figure 提供访问其云计算平台

Azure 的人工智能基础设施、培训和存储服务；与宝马合作，将其自身的 AI 与机

器人技术融入到宝马实际的汽车生产流程中。

❑ 投资建议

目前 Figure 与各科技巨头签署系列协议，有望形成“模型训练-云端设施-车厂落

地”商业闭环，并在行业加速扩散。我们认为，人形机器人的产业大趋势已经确定，

当前人形机器人厂商陆续更新的视频表现均超预期，这主要得益于端到端的大语

言-视觉模型等软件赋予人形机器人强大的理解、处理和执行能力，未来软件能力

依然是机器人落地量产的中最大变量，人形机器人是 AI 具象化的最好载体。

建议关注：1)整机厂：优必选、亿嘉和；2)总成：拓普集团、三花智控；3)无框力

矩电机：步科股份、汇川技术、伟创电气等；4)空心杯电机：鸣志电器、伟创电气

等；5)行星滚柱丝杠：北特科技、贝斯特、五洲新春等；6)减速器：绿的谐波、中

大力德、双环传动、丰立智能、精锻科技等。7)传感器：柯力传感、东华测试、康

斯特、安培龙、奥比中光、申昊科技等。8)设备：浙海德曼、日发精机、华辰装备、

宇环数控等。9)轻量化：中研股份、新瀚新材、中欣氟材等。

❑ 风险提示

人形机器人产业化不及预期，技术方案迭代对零部件需求产生变化，零部件降价

导致盈利能力下滑。

行业评级:

看好(维持)

分析师：张雷

执业证书号：S1230521120004

zhanglei02@stocke.com.cn

研究助理：虞方林

yufanglin@stocke.com.cn

相关报告

1 《特斯拉 Optimus 引领技术实

现，国产零部件迎来机遇》

2024.03.13

行业专题

http://www.stocke.com.cn

3/11

请务必阅读正文之后的免责条款部分

图表目录

图1： Figure01 机器人正在分拣纸团 ............................................................................................................................................ 4

图2： OpenAI 大模型对于神经网络决策和身体控制的加持 ...................................................................................................... 5

图3： Figure 大事记 ........................................................................................................................................................................ 5

图4： 1X 机器人的产品图 .............................................................................................................................................................. 7

图5： Figure 与宝马汽车合作 ........................................................................................................................................................ 7

表1： Figure 的融资历程 ................................................................................................................................................................ 6

表2：行业内公司估值表(亿元，元，倍) ..................................................................................................................................... 8

行业专题

http://www.stocke.com.cn

4/11

请务必阅读正文之后的免责条款部分

1 Figure 和OpenAI 合作后，产品迭代迅速

Figure 最新视频表明大模型介入人形机器人后，所带来的极快升级。近日人形机器人

公司 Figure 公布其与 OpenAI 合作 13 天后的机器人最新视频，视频中 OpenAI 将其 ChatGPT

强大的语音交互和理解反馈能力移植到 Figure 01 上，Figure 01 能够 1)理解区分面前的场景

对象；2)动作上区分苹果和一堆纸团；3)理解自身行为的目的；4)判断下一步的响应动作；

5)评价自身行为；6)手指灵活度足够且动作较快。

大模型介入有望帮助人形机器人打开 C端市场。通过 OpenAI 大模型的训练后，Figure

01 机器人能够从语义层面理解世界，做到理解和回应用户的需求和指令，并展现出了较强

的自主能力。我们认为，相对出色的运动或执行能力和特定场景下的模型训练，能够使得人

形机器人在工业某个单一场景内实现量产应用，而大模型所赋予的较为广泛和强大的交互能

力，有望帮助人形机器人打开 C端应用市场。

图1： Figure01 机器人正在分拣纸团

资料来源：Figure，浙商证券研究所

端到端的大语言-视觉模型是本次升级的核心，从语言输入开始，模型接管了一切处理，

直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。其中

Open 的大模型提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、

灵巧的机器人动作，机器人所有行为均源自于学习过的。

Figure01 的语言交互流程：研究人员将机器人摄像头中的图像输入、机载麦克风捕获的

语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型(VLM)中，由该

模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。

Figure01 的动作处理流程：大模型能力可以使机器人拥有短期记忆，以便联系和理解前

后的行为关系。动作拆解包括首先，互联网预训练模型对图像和文本进行常识推理，以得出

高级计划；其次，大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度)，

充当高速设定点，供更高速率的全身控制器跟踪，以确保安全和稳定。

研报加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载研报到电脑，查找使用更方便

免费 16人已下载

立即下载

标签： #AI #机器人

摘要：

证券研瘘N誼A行业专题机械设备httpwwwstockecomcn111请务必阅读正文之后的免责条瘘分机械设备报告日期：2024年03月14日FigureOpenAI：端b端的大语言视觉模型让“机器”b“人”——人形机器人行业专题报告（一）投资要点FigureOpenAI的最新视频呈现了什么亮点？Figure01最新视频表明了大语言视瘘模型瘘入人形机器人后所带瘘的极瘘升级。瘘赋o器人初创公司Figure公布其与OpenAI合作13天后的机器人最新视频视频中OpenAI将其端到端的大语言视瘘鷀翄移植到Figure01上Figure01能够1理瘘K前的场瘘賄；2动作上区分苹果和一堆纸团；3理瘘自身...

展开>> 收起<<

浙商证券-人形机器人行业专题报告(一)-Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”-240314-11页.pdf

共9页,预览3页

还剩页未读，继续阅读