订阅
纠错
加入自媒体

VLA模型如何重塑具身智能 —— 8家国内外典型具身智能VLA模型梳理与分析

一、国外典型具身智能VLA架构

国外4家典型的具身智能VLA模型:谷歌DeepMind RT-2、Physical AI 

π0 、Figure AI Helix 、英伟达GR00T N1。

1. 谷歌DeepMind —— RT2

2023年7月,谷歌DeepMind发布具身智能视觉-语言-动作模型(VLA)RT-2(Robotics Transformer 2)。其核心设计是使用互联网规模的网络数据和机器人动作轨迹数据对预训练好的视觉-语言模型(VLM)进行联合微调生成VLA模型。核心目标是将VLM模型的知识迁移到机器人控制中,实现端到端的语义推理与动作生成。

1)模型架构

RT-2以预训练的视觉-语言模型为核心骨干,通过动作Token 化将机器人控制任务统一到自然语言生成框架中,形成端到端单一模型架构。该模型分别以PaLI-X 和 PaLM-E 两种VLM 架构构建了对应的实例模型RT-2-PaLI-X 与 RT-2-PaLM-E 。

谷歌RT-2模型架构(图片来源:谷歌论文)

2)联合微调(Co-Fine-Tune)

将机器人动作数据(来自RT-1)与网络数据混合,共同输入模型进行联合微调。其中,网络数据内容包括视觉问答(VQA)、图像描述、非结构化图文交织样本等。机器人动作数据为13台机器人持续(历经)17个月采集的办公环境中的厨房场景数据(与RT-1训练所使用的数据相同)。

在具体实现方案中,谷歌DeepMind通过提高机器人动作数据集的采样权重,以平衡每批次训练数据中机器人动作数据与网络数据的比例。

模型联合微调的关键步骤在于建立模型现有词汇表与离散动作空间之间的映射关系。为此,需要预先保留256 个标记(tokens)作为专用的动作标记。具体选择哪些标记作为动作标记,取决于所使用的视觉语言模型(VLM)的分词方案:

PaLI-X:由于其分词方案为每个不超过 1000 的整数分配了唯一的标记,因此可直接将 action bins 映射到对应的整数标记上。

PaLM-E:该模型的分词方案不包含数字的直接表示,因此需要覆盖词汇表中 256个使用频率最低的标记,将它们重新定义为动作词汇表。

DeepMind通过实验证明 —— 提升机器人性能的关键训练技巧在于:将机器人数据与原始网络数据进行联合微调,而非仅对机器人数据实施简单微调。联合微调能生成泛化能力更强的策略,因为在此过程中,策略同时接触网络规模数据的抽象视觉概念和微调过程中的低层级机器人动作,而非仅局限于机器人动作。

3)动作Token化机制

RT-2 的动作 Token 化机制是其实现语义 - 动作对齐的核心技术,通过离散化编码、共享词汇表空间和VLM语义赋能三个层面的创新,将机器人控制信号转化为可被视觉 - 语言模型(VLM)直接处理的离散标记。

其中,动作离散化编码采用与RT-1相同的离散化方案。比如,将连续动作空间(如机械臂6自由度位姿)均匀量化为256个离散区间。

另外,使用共享词汇表空间。比如,在预训练VLM(如PaLI-X)的文本词汇表中新增512个专用动作Token,动作Token被嵌入预训练VLM的词汇表,通过同一Transformer解码器自回归生成混合序列,实现语言与动作的符号统一。

RT-2 与标准VLM模型的核心区别在于:RT-2必须输出有效的动作token才能在真实机器人上执行。为确保 RT-2 在解码过程中输出有效动作标记,通过以下方式约束其输出词汇表:

机器人动作任务场景:当模型接收到机器人动作任务提示时,仅允许采样有效的动作tokens。

标准视觉语言任务:模型仍然被允许输出所有可能的自然语言tokens(如问答、图像描述等)。

2. Physical Intelligence(PI)—— π0模型

2024 年10月 ,Physical Intelligence(PI)正式发布机器人领域端到端视觉-语言-动作(VLA)模型 π0。

2025年2月,PI宣布开源基础版π0与快速推理版π0-FAST,开源内容涵盖预训练模型参数、任务微调检查点及全流程推理代码,为学术界与产业界提供完整的具身智能开发框架。

1)模型整体架构

π0 模型整体架构示意图(图片来源:PI论文)

π0 模型包括一个预训练的VLM 模型和一个采用条件流匹配技术的动作专家模型(Action expert)。

其中,VLM 直接基于谷歌开源的30亿参数规模的PaliGemma 模型构建;动作专家模型采用独立部署的3亿参数权重,通过全层双向跨模态注意力交互机制与 VLM 深度交互。

该模型基于双模块架构实现端到端控制。在具体的数据处理与动作生成流程中:

VLM 主干网络(PaliGemma)负责处理图像与文本输入并提取语义特征,机器人本体感知数据(如关节角度、力反馈)通过独立编码器嵌入;两类信息经跨模态投影层映射至统一空间,形成视觉 - 语言 - 物理信号的融合表征。

动作专家模块以该融合表征为条件,依托条件流匹配技术与动作分块算法,以50Hz 高频生成连续动作分布,直接驱动机器人精准执行复杂灵巧任务。

2)模型训练

在训练策略上,π0模型采用了预训练+ 后训练(微调)的模式。先在多样性的大规模数据上进行预训练,再用高质量数据进行后训练,从而达到所需的精细控制能力。

π0模型的预训练和后训练(图片来源:PI论文)

a. 预训练阶段

在预训练阶段,预训练数据集应覆盖多样化任务,并使模型构建跨任务、跨本体的通用动作生成范式,实现从“单一任务模仿” 到 “动态场景泛化” 的能力跃升。

VLM预训练使用数据:大规模的互联网数据(图像、视频以及文本)。实际上,PI团队应该是直接使用Google开源 VLM —— PaliGemma的预训练权重。

动作专家模型预训练使用数据:开源真机数据集Open X-Embodiment 和 PI自己基于遥操作采集的真机数据(涵盖7种机器人本体和68项任务),数据总时长超过10000小时。

b. 后训练阶段

在后训练阶段,针对特定任务,依靠PI自己收集的高质量真机数据集去训练模型。通过模仿学习框架,进一步提高模型在特定任务上的成功率,目标是支持完成叠衣服、清理餐桌等复杂灵巧的下游任务。

3. Figure AI —— Helix模型

2025年2月,Figure AI发布了通用具身基础模型Helix ,该模型采用双系统架构:系统S1(快思考系统)+ 系统S2 (慢思考系统)。

Helix系统架构(图片来源:Figure AI)

1)S1系统:一个80M参数规模的Transformer模型,依赖一个完全卷积的多尺度视觉骨干网络进行视觉处理。

S系统以 200Hz的频率输出完整的上半身人形控制,包括期望的手腕姿态、手指弯曲和外展控制,以及躯干和头部方向目标。

该系统模型的训练主要依赖于机器人真机数据。

2)S2系统:一个7B参数规模的预训练VLM模型,用于处理机器人单目视觉图像和机器人状态信息(包括手腕姿态和手指位置),并将它们投影到视觉语言嵌入空间中。

S2 系统将所有语义任务相关信息提炼为一个连续的潜在向量,以7-9 Hz的频率传递给 S1系统 ,为机器人的行为决策提供高层次的指导。

该系统模型的训练主要依赖于大规模的互联网文本、图片以及视频数据。

3)两者之间的关联:系统1与系统2两者之间解耦,每个系统不仅能够进行独立迭代,而且,每个系统都可以在其最佳时间尺度上运行。比如,S2系统可以「慢慢思考」高层次目标,而S1系统可以「快速思考」机器人实时执行以及需要调整的动作。

S1系统与 S2系统分别部署于机器人上的两块独立专用 GPU上,二者对GPU要求不同:

S1系统需以 200Hz 高频输出连续动作,要求低延迟和高能效,以确保实时控制;

S2系统需要部署7B参数的 VLM模型, 对算力需求更高,适合部署在高显存、高算力的GPU上。

在演示视频中,两台采用相同Helix 模型权重的人形机器人,无需训练或角色分配,即可通过自然语言协作实现零样本杂货存放。

Helix 通过架构创新、数据效率提升与硬件适配优化,突破了传统机器人模型依赖多任务独立训练的技术局限,这种设计使其在家庭服务、工业协作等场景中,具备任务快速迁移与场景拓展的潜力。

4. 英伟达 —— GR00T N1

在2025年3月的GTC开发者大会上,英伟达推出全球首个开源、可定制的通用人形机器人模型 GR00T N1。

GR00T N1是一个双系统架构的视觉-语言-动作(VLA)模型,采用流匹配(Flow-Matching)技术来学习动作生成。

GR00T N1模型架构简化版(图片来源:英伟达论文)

(1)“系统2”是基于视觉-语言模型(VLM)的推理模块,负责深度推理与规划,类似人类的"思考中枢",运行频率较低(10Hz)。

在英伟达L40 GPU上运行预训练的视觉语言模型(如 Eagle-2 VLM),处理机器人的视觉感知图像信息和语言指令,以解释环境并理解任务目标以及语言指令。

图像输入→ 使用图像编码器(Vision Encoder)编码为Image Tokens 

语言指令输入→ 使用文本分词器(Text Tokenizer)转化为文本标记

(2)“系统1”是基于扩散变换器(DiT)的动作模块,负责快速动作生成,类似人类的"运动中枢",运行频率更高(120Hz)。

DiT处理机器人的本体感知状态和动作,这些信息随后与经过Eagle-2 VLM主干网络处理后输出的图像标记(image tokens)和文本标记(text tokens)进行交叉注意力运算,最终输出去噪后的电机动作。

输入:系统2的输出Tokens(Image Tokens 和 Text Tokens)+ 机器人本体状态(如关节位置等)+ 带噪声的动作向量。

处理:通过交叉注意力机制融合多源输入,逐步去噪生成动作序列。

输出:去噪后的运动动作(如抓取轨迹)。

GR00T N1模型架构详情版(图片来源:英伟达论文)

备注:英伟达公开发布的GR00T-N1-2B 模型总参数为22亿,其中视觉 - 语言模型(VLM)包含13.4 亿参数。在 L40 GPU 上使用 bf16 精度时,采样16个动作片段的推理时间为63.9毫秒。

“系统1”和“系统2”都是基于Transformer构建的神经网络,二者在训练过程中紧密耦合、联合优化,以实现推理与执行的高效协同。

GR00T N1模型预训练所使用的数据类型:真实机器人演示数据、合成数据(Omniverse生成)以及互联网上的人类视频数据。

用于机器人基础模型训练的“数据金字塔”(图片来源:英伟达论文)

应用案例:1X Technologies、Agility Robotics、Boston Dynamics、傅利叶等机器人公司已接入GR00T N1,利用该基础模型及其配套工具链开发新一代机器人产品,并在不同的应用场景中进行落地实践。

二、国内典型具身智能VLA模型

国内4家典型的具身智能VLA模型:星动纪元ERA-42、银河通用GraspVLA、智元机器人Genie Operator-1(GO-1)、灵初智能Psi-R1。

1. 星动纪元 —— ERA-42

2024年12月,星动纪元推出端到端原生机器人大模型ERA-42。该模型采用高层次规划和低层次控制的双系统架构。系统之间使用latent变量进行通信连接,实现了两者之间的高效信息传递和协同工作。

ERA-42模型架构(初版)

a. 高层次规划系统:采用7B参数的Instructblip视觉语言模型,负责将视觉信息与语言指令转化为蕴含常识知识的潜在特征,支持长期场景理解(含任务规划与纠错)。

它相当于是人类的“慢思考”系统,可以对任务指令进行深入理解,生成高层次的动作规划,为机器人的行为提供战略指导。

其中,InstructBLIP 由预训练视觉编码器(采用ViT架构)、大语言模型(LLM)、可学习查询 tokens 以及 Q-Former 组成。

b. 低层次控制系统:采用40M参数的紧凑型视觉驱动动作策略的Transformer网络,处理短期场景认知,融合历史观测与视觉语言模型的潜在特征。

它相当于是人类的“快思考”系统,根据高层次规划系统的输出结果以及实时的环境反馈,它可以实现高频地精确控制机器人的动作,确保动作的准确性和实时性。

工作原理:指令经由视觉语言模型(VLM)转化为连续潜在表征(continuous latent),并与采样视觉观测数据共同缓存至潜在缓冲区(latent buffer)。在推理的每一步:

预训练视觉编码器基于最新潜在表征对视觉观测进行条件化编码;

降维后的视觉语言标记(reduced vision-language tokens)通过条件化动作头(conditioned action head)解码为底层动作。

ERA-42 初版基于 HiRT 架构构建,而在后续的迭代版本中通过集成动作预测扩散器(PAD)升级了世界模型,形成以 HiRT 为基础框架、PAD 为预测模块的复合架构。

2)模型训练

模型训练使用数据类型:大规模视频数据(预训练)+少部分基于遥操作的真机数据(后训练)。

预训练阶段:由于采用融入世界模型的方式,ERA-42直接利用未标注的原始视频数据进行预训练,使模型聚焦于原始视频本身的预测,而非对物体姿态、关键点等处理后的信息进行预测。此举旨在最大程度保留信息完整性,规避因人为定义的规则、范式或先验知识导致的信息损耗。

后训练阶段:ERA-42 引入强化学习技术,通过构建奖励机制引导模型探寻最优动作策略。此阶段的模型训练主要采用基于遥操作方式获取的真机数据。

ERA-42模型训练使用数据(图片来源:星动纪元)

应用效果:基于ERA-42的能力, 星动纪元自研的五指灵巧手星动X HAND1可使用包括不限于螺钉钻、锤子、取液枪等多种多样的工具,完成更通用、灵巧性更强、复杂度更高的百种以上操作任务。并且,可以持续在同一个模型下学习新的技能。

2. 银河通用 —— GraspVLA

2025年1月,银河通用联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员发布端到端具身抓取基础大模型GraspVLA。

1)模型整体架构

GraspVLA 由一个自回归视觉语言骨干网络(VLM)和一个基于流匹配的动作专家模型组成,两个模块通过渐进式动作生成(PAG)机制连接。

其中,VLM模块包括一个大语言模型(InternLM2 1.8B版本)一个视觉编码器(融合了冻结参数的DINO-v2和SigLIP模型提取的特征)以及一个负责将视觉特征空间映射到语言特征空间的可训练投影器。

GraspVLA系统架构(图片来源:银河通用)

主要作用:VLM的作用是获取观察图像和文本指令,用于视觉-语言联合感知。动作专家模块的主要作用是进行细粒度的末端执行器的动作生成。

工作原理:在数据层面,模型利用互联网基础数据与合成动作数据的协同效应,流程为:首先为合成数据和网络数据生成目标物体的2D 边界框;随后,仅针对合成数据集,由 VLM 在机器人基坐标系中进一步预测目标的抓取姿态;最终,动作专家基于 VLM 处理输入及中间推理令牌(tokens) 时产生的键值缓存(key-value cache),为合成数据集生成动作块(action chunk)。

2)模型训练

GraspVLA的模型训练包含预训练和后训练两部分。其中,预训练是针对通用需求,主要采用大规模合成数据去训练。后训练是针对专用需求,主要基于少部分真机数据训练。

a. 预训练

在没有大规模真实数据的条件下,银河通用以10亿级规模的仿真合成数据(SynGrasp-1B)为基础对GraspVLA进行预训练,实现了支持通用需求的基础模型 —— “通才”,掌握了包括高度泛化、平面位置泛化、物体类别泛化、光照泛化、干扰物泛化、背景泛化和闭环能力在内的七大泛化能力,能够在真实场景中实现零样本抓取,无需额外训练即可应对未见过物体的复杂摆放和动态环境变化。

SynGrasp-1B —— 10亿级规模的合成数据(图片来源:银河通用)

备注:SynGrasp-1B 是基于先进光线追踪渲染技术与物理模拟系统构建的十亿帧级抓取数据集。该数据集涵盖 240个物体类别、10680 个实例,依托160 张 NVIDIA 4090 GPU 组成的计算集群,历时10天完成十亿帧数据的生成工作。

b. 后训练

针对专用需求,需要再对基础模型进行后训练,即进一步通过小样本真机数据进行微调,可使其成长为特定场景应用下的“专才”。例如,面向工业场景中抓取接线座、三角板等特殊零部件的需求,仅需少量真实数据后训练,模型就能快速掌握工业术语,实现特定零部件的精准抓取,进而实现基础能力的快速迁移。

3. 智元机器人 —— 智元启元大模型GO-1

2025年3月,智元机器人正式发布基于ViLLA(Vision-Language-Latent-Action)架构打造的通用具身基座大模型:智元启元大模型 —— Genie Operator-1(简称GO-1 )。

Genie Operator-1模型架构(图片来源:智元机器人)

其中,ViLLA架构由VLM(视觉-语言多模态大模型) + MoE(混合专家)组成。其中,MoE包含混合专家1 —— Latent Planner(隐式规划器)和混合专家2 —— Action Expert(动作专家)两部分组成。

1)VLM模型:采用InternVL-2B多模态大模型,接收多视角视觉图片、力觉信号、自然语言等多模态信息的输入,实现通用的场景感知和理解以及语言指令的理解。

该模型训练所使用的数据主要来自大规模的互联网图像和文本数据。

2)混合专家1 —— Latent Planner(隐式规划器):模型架构采用与VLM 主干网络相同的Transformer 结构,但使用两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。

它的主要作用为基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),以实现通用动作的理解和规划。

该模型训练所使用的数据:主要为大量人类操作和跨本体操作视频,目的在于将异构数据源中真实世界的动作知识迁移到通用操作任务中。

3)混合专家2 ——Action Expert(动作专家):在结构设计上与Latent Planner类似,也是与VLM 主干网络共享相同的 Transformer 结构。

它的作用在于基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

该模型训练所使用的数据是高质量的真机数据。

简单来说:VLM模型负责“看懂”世界和任务,Latent Planner在“脑海”中构思出达成目标的步骤(做什么),Action Expert则将这些步骤转化为机器人身体能执行的具体动作(怎么做)。三者形成“感知→规划→执行”的闭环。

4. 灵初智能 —— Psi-R1

2025年4月,灵初智能正式推出基于强化学习(RL)的端到端具身VLA模型Psi-R1。

Psi R1模型采取了“快慢脑”的分层架构,其中,快脑S1专注操作,慢脑S2专注推理,此架构支持机器人在开放环境下实现自主推理决策和长程灵巧操作的能力。

上层规划Planner(即慢脑S2系统):采用基于自回归生成机制的Causal VLM架构,负责场景抽象理解、任务规划决策。

下层控制Controller(即快脑S1系统):采用DiT 模块,专注于高精度的控制执行操作。

Psi-R1模型架构(图片来源:灵初智能)

Psi-R1模型通过 Action Tokenizer 将慢脑S2输出的高层动作规划离散化为可执行指令,供快脑S1解析执行,实现动作空间的统一表征。该机制协同视觉—语言模态编码器,共同完成跨模态对齐与融合。

据了解,Psi-R1模型是构建了首个支持「动作感知 - 环境反馈 - 动态决策」全闭环的VLA模型,实现机器人操作的视觉-语言-动作多模态协同的的CoAT思维链。再通过真机强化学习训练,搭载R1模型的机器人能够在多数灵巧操作任务中展现出接近人类水平的目标泛化能力与长程任务操作稳定性。

应用场景:麻将作为策略性博弈棋牌,兼具高度随机性与交互性。在这一场景中,搭载R1 模型的机器人能够完整进行一局时长超 30 分钟的国标麻将:不仅能精准完成翻牌、抓牌、理牌、出牌等操作,展现出接近人类的灵巧操作水平;还能理解麻将规则,动态制定出牌、碰杠等策略,实现从规则理解到实时博弈的全流程推理与执行。

该机器人完成了时长30分钟以上的CoAT长线思维链,打破了传统机器人在复杂任务中面临的时间与思考瓶颈。

参考资料:

1.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2.π0: A Vision-Language-Action Flow Model for General Robot Control

3.Figure AI 官网 

4.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

5.HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

6.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

7.AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

8. 灵初智能官网

       原文标题 : VLA模型如何重塑具身智能 —— 8家国内外典型具身智能VLA模型梳理与分析

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号