迈向人类级驾驶智能：VLA视觉语言行动模型

2025-05-09 14:19

芝能科技

关注

芝能科技出品

2025年，由于安全和强监管的作用，辅助驾驶行业正处于黎明前的黑暗。

面对复杂的现实路况、多样的人类行为模式，以及传统AI在泛化和理解能力上的瓶颈，理想汽车在《AI Talk第二季》系统性的阐述了“VLA（视觉语言行动模型）”。

从逻辑上来看，VLA不是单一的模型升级，从模仿昆虫般的规则算法，到具备哺乳动物智能的端到端系统，再到真正具有人类驾驶认知和执行能力的“司机大模型”。

我们从技术演化的三阶段入手，深入解析VLA的架构组成、训练流程和关键突破，探讨它如何打破智能驾驶发展的困局，成为迈向L4+自动驾驶的关键支点。

从蚂蚁到人类：

VLA技术演化的三阶段

阶段一：规则驱动与“昆虫智能”

回溯智能驾驶的早期阶段，我们依赖于机器学习下的感知模块，配合高精地图、规则算法执行。系统的每一个子模块（感知、规划、控制）都需精密耦合，更多依赖人工设定的规则。

这一阶段，智能驾驶系统更像是一只被设定程序路径的“蚂蚁”：只能在特定场景中“爬行”，缺乏对环境的真正理解和泛化能力。

◎ 感知模型参数规模小：仅几百万参数，处理能力严重受限。

◎ 对地图强依赖：高精地图一旦失效，系统极易出现功能崩溃。

◎ 缺乏上下文理解能力：面对突发场景（如施工绕行、人为交通指挥等）无所适从。

这正如马戏团里受训的昆虫，仅能在被设定轨道内完成任务，缺乏主动决策与认知能力。

阶段二：端到端与“哺乳动物智能”

2023年起，理想汽车启动端到端（E2E）辅助驾驶研究，并在2024年开始实车部署。端到端模型将感知与控制流程一体化，通过大规模数据驱动“模仿学习”。

该阶段的模型能通过模仿人类驾驶行为完成任务，具备初步泛化能力。

◎ 学习对象为人类驾驶行为：模型能够“看图开车”，感知场景并输出驾驶指令。

◎ 缺乏因果推理能力：模型虽能模仿，但无法理解行为背后的因果关系。

◎ VLM（视觉语言模型）的初步引入：引导模型理解交通信号语义和少量文字信息，但由于开源VLM多为低分辨率，泛化能力不足。

端到端系统像是能骑车的猩猩：虽然能完成任务，但并不真正理解交通世界的规律与逻辑。这种“经验驱动”的模型仍存在理解维度浅、推理能力弱、泛化能力有限等瓶颈。

阶段三：VLA（司机大模型）与“人类智能”

进入VLA时代，智能驾驶系统不再是规则控制器，也不仅仅是模仿者，而是拥有“类人思维”的驾驶主体。

VLA系统具备真正意义上的三重能力融合：

◎ Vision：3D视觉 + 高清2D图像；

◎ Language：交通语言理解 + 内部CoT推理链；

◎ Action：驾驶行为的计划、决策与执行。

VLA不同于传统VLM或E2E模型，它不仅能“看懂世界”，还能“理解”并“行动”，其智能程度首次接近人类驾驶员。

技术架构解析：

如何构建一个“司机大模型”？

预训练阶段的目标是打造一个视觉与语言紧密融合的VL（Vision + Language）多模态大模型，作为VLA的训练起点。

当前版本的模型规模达到32B（320亿参数）级别，并部署于云端训练平台。

此模型整合了丰富的视觉语料，包括3D空间感知和高清2D图像，其图像分辨率相比现有开源VLM提升了10倍，覆盖了远距识别、交通标志以及动态场景等复杂要素。

同时，语言语料涵盖了驾驶指令、路况语义及行为规则，包含导航信息、人类指令和驾驶习惯用语。

联合语料方面，通过将视觉语境与语言语义共同嵌入，如导航地图结合驾驶行为的理解，三维图像与指令逻辑结合，旨在构建一个具备物理世界理解能力的“多模态世界模型”。

完成预训练后，32B模型被蒸馏为3.2B端侧模型，以适配Orin-X或Thor-U硬件平台，采用MoE（混合专家模型）架构实现效率与精度的平衡，确保模型能在实时40Hz帧率以上运行，满足车规级部署要求。

进入后训练阶段，重点转向从理解到行动的模仿学习。

如果说预训练赋予了模型“看与听”的能力，那么这一阶段则是让模型学会“动手”。

通过大规模人车共驾数据的学习，模型能够模仿人类驾驶行为，学习轨迹、加速、刹车等操作。此外，生成式行为学习不仅限于回归预测，还能够进行轨迹生成与优化。

任务集成模型（TAM）结构则将视觉语言理解与动作生成深度融合，提高任务执行效率。

最终形成一个具备完整驾驶循环的VLA结构：从环境感知、意图理解到驾驶行为执行，构成闭环控制系统。

模型扩展至4B参数，保留CoT（思维链）机制但限制在2～3步内，以兼顾推理能力和系统延迟。

强化训练阶段强调的是从驾校到真实道路的过渡，注重人类偏好与安全边界控制。

不同于传统的RL方法，VLA的强化训练体系引入了RLHF（人类反馈强化学习），通过人类介入标注数据形成“人接管—AI迭代”循环，融入用户偏好、道路安全行为习惯等软性目标。

Diffusion预测模块能够在执行动作前预测未来4~8秒内的环境与轨迹变化，提供因果推理能力，为决策提供时域支持。

这一过程如同驾驶员从实习到正式上岗的过程，使VLA不仅能开车，而且能安全、稳健地应对真实世界中的突发情况。

视觉语言行动模型（VLA）体系中，最具突破性、也最贴近用户实际驾驶需求的部分，就是“司机Agent”的构建。

所谓“司机Agent”是一个具备类人驾驶智能的“数字驾驶员”——它不仅能够看清楚、听明白，更关键的是，它能理解路况、语言指令以及驾驶意图，并做出合理的行动决策。这是VLA三个阶段演进的核心成果。

传统的感知+规则算法，像昆虫一样只能被动反应、遵循简单指令。而端到端模型虽更聪明，像是训练有素的动物，可以模仿人类行为，却缺乏真正的世界理解。

而VLA中的司机Agent则进一步融合了3D视觉理解、语言推理（CoT），以及实时行动策略学习能力，可以将一段自然语言“你在前方出口处靠右行驶”翻译为精准的轨迹控制，甚至在突发场景下进行动态调整。这意味着它不仅能看清红绿灯，还能“理解”红绿灯的语义和策略影响。

司机Agent依托于三个关键训练步骤构建而成：

◎ 首先基于云端32B模型进行视觉语言联合建模，以理解3D现实世界与高分辨率2D图像并建立交通语境下的“语言-视觉”嵌套结构；

◎ 其次在端侧3.2B蒸馏模型上通过模仿学习实现行动建模，从人类驾驶数据中学会对视觉语义做出反应；

◎ 最后通过强化学习（尤其是RLHF）引入人类反馈，使系统不仅能学习“如何做”，更能学会“如何避免错误”，从而优化安全边际与驾驶习惯，完成从模拟到实战的过渡。

VLA的司机Agent并非只是一套规则的叠加，而是一个拥有短链推理能力（CoT）和多模态协同决策能力的泛化智能体。

在保持执行实时性的同时，它可以做出“如果我现在加速，5秒后前车可能会减速”的因果推演，并结合其训练过的行为偏好，选择更符合人类驾驶风格的方式进行操作。

这个“司机Agent”是VLA真正走向量产落地的核心标志：它不仅是模型的集合体，更是驾驶行为的数字化拷贝。

这一Agent的成熟将直接决定辅助驾驶是否能从“功能堆叠”迈向“驾驶替代”，真正成为每一位用户可信赖的“副驾”。

小结

VLA的意义不仅是技术，

而是产业的破局钥匙

VLA的出现，不只是技术体系的进化，更是辅助驾驶行业从困境走向突破的关键。今天的辅助驾驶争议重重：技术无法闭环、泛化能力弱、安全问题频出。

但正因如此，VLA应运而生。不仅具备了“类人认知”，还以工程化路径落地，在算力可控范围内实现高度拟人化驾驶体验。它将视觉、语言、行动三者融合，从理解世界到改变世界，迈出了自动驾驶真正“可商用、可规模化”的第一步。

VLA并非终点，而是一个开端。正如黎明前的黑暗终将过去，VLA标志着辅助驾驶正从工程试验品，迈向未来社会的基础设施。

原文标题 : 迈向人类级驾驶智能：VLA视觉语言行动模型

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

技术文库

行业报告