迈向人类级驾驶智能:VLA视觉语言行动模型
芝能科技出品
2025年,由于安全和强监管的作用,辅助驾驶行业正处于黎明前的黑暗。
面对复杂的现实路况、多样的人类行为模式,以及传统AI在泛化和理解能力上的瓶颈,理想汽车在《AI Talk第二季》系统性的阐述了“VLA(视觉语言行动模型)”。
从逻辑上来看,VLA不是单一的模型升级,从模仿昆虫般的规则算法,到具备哺乳动物智能的端到端系统,再到真正具有人类驾驶认知和执行能力的“司机大模型”。
我们从技术演化的三阶段入手,深入解析VLA的架构组成、训练流程和关键突破,探讨它如何打破智能驾驶发展的困局,成为迈向L4+自动驾驶的关键支点。
01
从蚂蚁到人类:
VLA技术演化的三阶段
阶段一:规则驱动与“昆虫智能”
回溯智能驾驶的早期阶段,我们依赖于机器学习下的感知模块,配合高精地图、规则算法执行。系统的每一个子模块(感知、规划、控制)都需精密耦合,更多依赖人工设定的规则。
这一阶段,智能驾驶系统更像是一只被设定程序路径的“蚂蚁”:只能在特定场景中“爬行”,缺乏对环境的真正理解和泛化能力。
◎ 感知模型参数规模小:仅几百万参数,处理能力严重受限。
◎ 对地图强依赖:高精地图一旦失效,系统极易出现功能崩溃。
◎ 缺乏上下文理解能力:面对突发场景(如施工绕行、人为交通指挥等)无所适从。
这正如马戏团里受训的昆虫,仅能在被设定轨道内完成任务,缺乏主动决策与认知能力。
阶段二:端到端与“哺乳动物智能”
2023年起,理想汽车启动端到端(E2E)辅助驾驶研究,并在2024年开始实车部署。端到端模型将感知与控制流程一体化,通过大规模数据驱动“模仿学习”。
该阶段的模型能通过模仿人类驾驶行为完成任务,具备初步泛化能力。
◎ 学习对象为人类驾驶行为:模型能够“看图开车”,感知场景并输出驾驶指令。
◎ 缺乏因果推理能力:模型虽能模仿,但无法理解行为背后的因果关系。
◎ VLM(视觉语言模型)的初步引入:引导模型理解交通信号语义和少量文字信息,但由于开源VLM多为低分辨率,泛化能力不足。
端到端系统像是能骑车的猩猩:虽然能完成任务,但并不真正理解交通世界的规律与逻辑。这种“经验驱动”的模型仍存在理解维度浅、推理能力弱、泛化能力有限等瓶颈。
阶段三:VLA(司机大模型)与“人类智能”
进入VLA时代,智能驾驶系统不再是规则控制器,也不仅仅是模仿者,而是拥有“类人思维”的驾驶主体。
VLA系统具备真正意义上的三重能力融合:
◎ Vision:3D视觉 + 高清2D图像;
◎ Language:交通语言理解 + 内部CoT推理链;
◎ Action:驾驶行为的计划、决策与执行。
VLA不同于传统VLM或E2E模型,它不仅能“看懂世界”,还能“理解”并“行动”,其智能程度首次接近人类驾驶员。
02
技术架构解析:
如何构建一个“司机大模型”?
预训练阶段的目标是打造一个视觉与语言紧密融合的VL(Vision + Language)多模态大模型,作为VLA的训练起点。
当前版本的模型规模达到32B(320亿参数)级别,并部署于云端训练平台。
此模型整合了丰富的视觉语料,包括3D空间感知和高清2D图像,其图像分辨率相比现有开源VLM提升了10倍,覆盖了远距识别、交通标志以及动态场景等复杂要素。
同时,语言语料涵盖了驾驶指令、路况语义及行为规则,包含导航信息、人类指令和驾驶习惯用语。
联合语料方面,通过将视觉语境与语言语义共同嵌入,如导航地图结合驾驶行为的理解,三维图像与指令逻辑结合,旨在构建一个具备物理世界理解能力的“多模态世界模型”。
完成预训练后,32B模型被蒸馏为3.2B端侧模型,以适配Orin-X或Thor-U硬件平台,采用MoE(混合专家模型)架构实现效率与精度的平衡,确保模型能在实时40Hz帧率以上运行,满足车规级部署要求。
进入后训练阶段,重点转向从理解到行动的模仿学习。
如果说预训练赋予了模型“看与听”的能力,那么这一阶段则是让模型学会“动手”。
通过大规模人车共驾数据的学习,模型能够模仿人类驾驶行为,学习轨迹、加速、刹车等操作。此外,生成式行为学习不仅限于回归预测,还能够进行轨迹生成与优化。
任务集成模型(TAM)结构则将视觉语言理解与动作生成深度融合,提高任务执行效率。
最终形成一个具备完整驾驶循环的VLA结构:从环境感知、意图理解到驾驶行为执行,构成闭环控制系统。
模型扩展至4B参数,保留CoT(思维链)机制但限制在2~3步内,以兼顾推理能力和系统延迟。
强化训练阶段强调的是从驾校到真实道路的过渡,注重人类偏好与安全边界控制。
不同于传统的RL方法,VLA的强化训练体系引入了RLHF(人类反馈强化学习),通过人类介入标注数据形成“人接管—AI迭代”循环,融入用户偏好、道路安全行为习惯等软性目标。
Diffusion预测模块能够在执行动作前预测未来4~8秒内的环境与轨迹变化,提供因果推理能力,为决策提供时域支持。
这一过程如同驾驶员从实习到正式上岗的过程,使VLA不仅能开车,而且能安全、稳健地应对真实世界中的突发情况。
视觉语言行动模型(VLA)体系中,最具突破性、也最贴近用户实际驾驶需求的部分,就是“司机Agent”的构建。
所谓“司机Agent”是一个具备类人驾驶智能的“数字驾驶员”——它不仅能够看清楚、听明白,更关键的是,它能理解路况、语言指令以及驾驶意图,并做出合理的行动决策。这是VLA三个阶段演进的核心成果。
传统的感知+规则算法,像昆虫一样只能被动反应、遵循简单指令。而端到端模型虽更聪明,像是训练有素的动物,可以模仿人类行为,却缺乏真正的世界理解。
而VLA中的司机Agent则进一步融合了3D视觉理解、语言推理(CoT),以及实时行动策略学习能力,可以将一段自然语言“你在前方出口处靠右行驶”翻译为精准的轨迹控制,甚至在突发场景下进行动态调整。这意味着它不仅能看清红绿灯,还能“理解”红绿灯的语义和策略影响。
司机Agent依托于三个关键训练步骤构建而成:
◎ 首先基于云端32B模型进行视觉语言联合建模,以理解3D现实世界与高分辨率2D图像并建立交通语境下的“语言-视觉”嵌套结构;
◎ 其次在端侧3.2B蒸馏模型上通过模仿学习实现行动建模,从人类驾驶数据中学会对视觉语义做出反应;
◎ 最后通过强化学习(尤其是RLHF)引入人类反馈,使系统不仅能学习“如何做”,更能学会“如何避免错误”,从而优化安全边际与驾驶习惯,完成从模拟到实战的过渡。
VLA的司机Agent并非只是一套规则的叠加,而是一个拥有短链推理能力(CoT)和多模态协同决策能力的泛化智能体。
在保持执行实时性的同时,它可以做出“如果我现在加速,5秒后前车可能会减速”的因果推演,并结合其训练过的行为偏好,选择更符合人类驾驶风格的方式进行操作。
这个“司机Agent”是VLA真正走向量产落地的核心标志:它不仅是模型的集合体,更是驾驶行为的数字化拷贝。
这一Agent的成熟将直接决定辅助驾驶是否能从“功能堆叠”迈向“驾驶替代”,真正成为每一位用户可信赖的“副驾”。
小结
VLA的意义不仅是技术,
而是产业的破局钥匙
VLA的出现,不只是技术体系的进化,更是辅助驾驶行业从困境走向突破的关键。今天的辅助驾驶争议重重:技术无法闭环、泛化能力弱、安全问题频出。
但正因如此,VLA应运而生。不仅具备了“类人认知”,还以工程化路径落地,在算力可控范围内实现高度拟人化驾驶体验。它将视觉、语言、行动三者融合,从理解世界到改变世界,迈出了自动驾驶真正“可商用、可规模化”的第一步。
VLA并非终点,而是一个开端。正如黎明前的黑暗终将过去,VLA标志着辅助驾驶正从工程试验品,迈向未来社会的基础设施。
原文标题 : 迈向人类级驾驶智能:VLA视觉语言行动模型
图片新闻
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论