端到端智能驾驶训练困局：连续帧真值数据缺失下的 “模型幻觉” 破局之道

2025-07-04 13:43

一、引言

随着感知、决策和控制各模块的性能逐步逼近上限，端到端学习（End-to-End Learning）在智能驾驶领域受到越来越多关注。端到端模型通过深度神经网络将原始传感器输入直接映射为驾驶控制信号，减少中间模块误差传播的影响，有望简化系统架构、提升整体协同效率。

然而，现实中端到端方案的实际落地远未达到预期，训练稳定性差、泛化能力弱、对极端场景响应迟钝等问题频现。本文将从训练数据角度出发，聚焦一个关键变量：高质量连续帧数据真值，探讨它如何成为突破端到端训练瓶颈的核心资源。

端到端发展历程

二、端到端智能驾驶训练的基本流程

端到端智能驾驶模型的核心思想是打通传感器输入与车辆控制之间的映射关系，其训练流程通常包括以下关键步骤：

1. 数据采集与预处理：采集车辆在真实或仿真环境中行驶时的多模态数据，包括RGB图像、LiDAR点云、IMU信号、CAN控制数据、高精地图等，并对其进行时间同步、数据清洗与格式标准化。

2. 模型设计与训练：主流端到端模型多基于深度卷积神经网络、Transformer、BEV（Bird's Eye View）表示等结构，分为感知-规控融合网络和轨迹回归网络两类，训练目标为最小化预测控制信号（或目标轨迹）与人类驾驶员实际操作之间的误差。

3. 评估与验证：通过回放或闭环仿真方式对模型进行评估，主要考察其在不同交通场景下的鲁棒性、平滑性、安全性和策略合理性。

相较于传统模块化系统，端到端模型理论上更具整体协同性，但对数据质量，尤其是语义一致、时间连续的训练样本提出了更高要求。

OpenDriveLab发布UniAD架构设计概览

三、训练瓶颈解析：为什么端到端模型难以落地？

3.1 场景稀疏与长尾分布问题

端到端模型依赖大量驾驶数据学习控制策略，但现实道路中的关键决策场景（如非保护左转、临时施工、突发加塞等）极为稀缺，属于典型的长尾分布。模型在训练阶段难以充分暴露于这些罕见场景，导致测试或部署时响应失效。

即便具备上万小时的驾驶数据，如果缺乏对这些“高风险高复杂度场景”的密集采集和标注，模型学习出的控制策略往往偏向于“温和保守”，难以在突变交通情境下做出有效响应。此外，传统采集方式主要依赖自然驾驶过程，未必能高效覆盖所有corner case场景，进一步放大了模型在长尾问题上的性能劣势。

更重要的是，这些场景常常具有复杂的语义关系和多重意图变化，如施工场地同时伴随道路收窄、交警指挥、路面反光干扰等，单帧信息难以覆盖其语义全貌。

3.2 缺乏时序建模能力

许多端到端方法采用静态输入（如单帧图像或短时间窗口），忽视了驾驶行为本质上是一个强时序相关的连续决策过程。缺乏时序特征建模，导致模型在需要提前预判的场景中响应迟缓，表现为“控制漂移”、“跟车失稳”等问题。

比如在高速并线场景中，驾驶员通常会通过观察前后车速和打灯行为提前规划动作，而非根据当前帧立即判断是否变道。若训练数据无法提供连续帧的状态变化信息，模型将缺乏对“策略演化路径”的学习，容易陷入只适应静态决策的“盲控制”。

此外，诸如紧急刹车、躲避障碍、连续交互让行等行为，本质上是一个策略序列，而不是某一帧的孤立响应，必须依靠跨时间建模与行为记忆。

3.3 控制真值的模糊性与歧义性

相比分类或检测任务中相对明确的标签，驾驶控制信号具有明显的多解性。比如在同一场景中，驾驶员可以选择轻微减速也可以选择变道，均为合理行为。这样的监督信号本身就存在歧义，容易造成模型学习方向不确定，训练过程震荡。

此外，不同驾驶员在相同条件下的行为也存在差异，个体风格、安全容忍度、驾驶经验都会导致控制策略的不同，模型学习到的控制行为易出现不稳定、多样性过高的现象，从而影响模型收敛效果与泛化性能。

控制数据还存在“非一致性采集”问题，例如由于采集时GPS漂移或CAN延迟，标签信号本身存在偏移或波动，进一步加剧了训练过程中的误差传播。

3.4 数据离散性，缺乏连续监督

当前常用的数据集如nuScenes、Argoverse、Waymo Motion仅提供稀疏帧标注或短时轨迹片段，缺乏高频连续的数据段。这种数据形态难以支撑模型学习跨时序的策略演化逻辑，也难以实现真正意义上的“行为模仿”。

例如，车辆在进入环岛前的减速、注视、寻找切入点，再到环岛内决策、出环时加速等，均需多帧状态连续呈现才能完整表达策略过程。离散帧仅能呈现动作结果，缺乏状态演化的上下文，导致模型无法推理“为何做出某动作”。

某些驾驶行为（如超车）还涉及视觉注意力迁移、信号意图变化、交互对抗博弈等内容，只有连续帧才能揭示背后的语义轨迹。

3.5 时序标签不一致、误差累积

在模块化系统中，每一层都可以进行误差校正。但在端到端体系中，一旦输入数据存在时间对齐误差或标签跳变，误差会在模型中逐层放大并最终导致策略输出严重偏移，尤其是在复杂交通互动场景中更为明显。

此外，如果连续帧间的目标ID、轨迹或意图标注不一致，会导致模型误认为是两个完全不同的事件，进一步削弱其对跨帧语义的建模能力。缺乏稳健的多帧时间标注机制，也直接限制了Transformer等长时序建模结构在端到端训练中的表现。

目前很多数据平台在生成标注时仍以帧为单位，缺少跨帧实体一致性检查与插值重建能力，导致同一目标在两帧中出现“跳帧”、“漂移”甚至“消失”，这在视觉跟踪、意图建模上都是严重阻碍。

综上所述，当前端到端模型虽具备技术吸引力，但在训练稳定性、数据需求、行为一致性建模等方面仍存在明显瓶颈，而这些问题的根源往往可以追溯到“连续帧真值”的缺失。

四、连续帧数据真值的价值与作用

在端到端智能驾驶模型的训练中，数据不仅仅是“素材”，更是“监督信号”的根基。尤其是具有时序连续性与真实语义真值（ground truth）的高质量数据序列，不仅弥补了端到端训练中的诸多结构性缺陷，更逐步成为系统走向实用化的“第一性资源”。本文将从以下四个维度系统论述其核心价值。

4.1 驱动策略演化建模的基础

智能驾驶并非图像分类等静态任务，它要求模型不仅识别当前状态，更要基于过去预测未来、基于变化规划行为。因此，“策略的演化轨迹”是理解驾驶行为的关键。而这种策略路径，天然需要通过高时间分辨率的连续帧数据来呈现。

以左转避让为例，驾驶员通常会经历“驶入交叉口 → 观察对向车 → 判断速度差 → 减速等待/直接穿越”一系列决策阶段。若数据仅提供转弯瞬间的单帧控制信号，模型将无法理解为何此时选择“等待”或“转向”，更难学习行为背后的演化逻辑。

而连续帧数据，配合高质量的控制与意图真值，可以让模型感知到“从观察到动作”的全过程，从而建立起策略因果链条。这是传统离散采样数据无法提供的训练线索。

更进一步，借助连续帧，模型可以构建跨帧表示，如轨迹微分、速度变化率、注意力转移趋势等，极大丰富输入特征空间，为策略预测提供更具表现力的状态描述。

4.2 提升模型稳定性与泛化能力

端到端模型最大挑战之一是其对数据波动的敏感性，即“单帧预测误差”会导致整段控制逻辑偏移。而连续帧数据在训练中天然具备“冗余约束”效应：

· 时序一致性：连续帧之间状态平滑，控制信号应逐渐过渡。训练过程中，模型在拟合轨迹时需同时满足空间误差最小与时间连贯性，等于引入一种“隐式正则化”，能有效抑制过拟合与过激预测。

· 行为约束带宽：在复杂场景下，连续帧记录了同一行为的多个表现阶段，构成“多视图监督”。这使得模型即使某一帧预测存在偏差，也可通过邻近帧反馈纠偏，从而在整体上增强鲁棒性。

· 稀缺场景的语义外推：对于长尾决策如“前车紧急掉头”、“交警指挥变道”，连续帧能揭示该事件前后的上下文状态，有助于模型从相似但非等同场景中迁移策略，从而提升泛化能力。

以实际工程经验为例，当端到端模型引入连续帧训练机制后，其轨迹偏差率在城市环路中的变化范围下降约20%-30%，尤其在多车交互、突然减速等非结构化场景中表现更平稳。

4.3 支撑行为意图与交互建模

连续帧不仅仅记录空间状态变化，更提供了行为演进与意图显现的窗口。在车路交互频繁的城市交通中，仅通过单帧很难判断其他交通体的“未来走势”。而连续帧轨迹+语义标签的组合，可构建明确的行为意图监督信号，提升模型对交互场景的感知与预测能力。

例如，在“交汇让行”情景中：

· 行人连续帧的移动方向、速度变化可推断其“是否过街”的意图；

· 对向车是否减速、变道可预示其“是否避让”；

· 自车历史控制轨迹也能影响未来行为预测，如刹车力度持续变化说明“正在让行”。

这些隐性意图信息，依赖高质量连续帧数据才能准确提取与标注。借助多帧的速度、加速度、加加速度（jerk）等物理量可进一步辅助模型判断“是想停还是正加速”，从而做出更合逻辑的决策。

一些先进的端到端架构甚至将行为意图作为中间显式表示（例如 Waymo 的 Multi-Agent Prediction 网络结构），通过多目标轨迹回归对交互进行建模，背后均依赖连续帧的轨迹与ID一致性标签作为监督。

4.4 满足长时序神经网络的训练需求

Transformer等长序列神经网络结构近年来被广泛引入端到端驾驶学习，尝试解决传统CNN架构对时序建模能力的不足。但这类模型天然需要大规模“序列样本”支持。

如以每秒20帧计算，一个10秒行为片段即包含200帧图像+CAN数据+标注，且要求目标ID一致、动作连续、时间对齐，若缺乏高质量连续帧样本，将极大制约这类结构的性能发挥。

此外，部分模型使用滑窗机制对历史状态进行聚合，需要标注数据能保持稳定的“因果链式输入”，即“前10帧决定当前动作”，此时一旦中间帧存在遮挡、跳帧、标注丢失等问题，整个训练段将失效。

在实际项目中，使用具备4D连续真值（空间3D+时间连续）支持的数据集，可将Transformer模型的收敛速度提升40%以上，训练稳定性显著增强。而无此类数据的情况下一些长序列结构甚至无法稳定训练。

4.5 促进闭环部署与仿真评估

高质量连续帧数据不仅用于模型训练，也为后续的模型验证与部署提供坚实支撑。在闭环部署前，通常需在仿真平台中对端到端策略进行大规模行为回放与场景重演验证，而只有具备时间连续性的真实行为数据，才能有效驱动仿真系统：

· 可基于真实轨迹构造多车交通情景，复现稀缺互动行为；

· 可模拟模型替代人类驾驶员进行同一路径重演，对比预测轨迹与真实轨迹之间的偏差，评估模型行为一致性；

· 可通过插值、剪辑等方式构建场景变体，对模型策略稳定性进行压测。

此外，在实际部署过程中，若发现模型在某类场景下存在“重复性误判”，可通过连续帧回放精确定位策略崩溃点，为后续模型重训、数据补充提供针对性样本。

因此，具备高语义、长时序、一致性标签的连续帧数据，不仅用于前端训练，更是端到端系统实现闭环开发的基础资源。

五、行业代表性实践与案例分析

在端到端智能驾驶系统的探索过程中，头部科技公司和造车新势力已逐步认识到连续帧数据与高质量真值标签在模型训练中的核心价值。无论是Waymo、Cruise等国际自动驾驶先锋，还是理想、小鹏、华为、亮道智能等中国智能驾驶主力军，均在其技术路线或平台架构中，强调连续行为数据的采集、标注与利用。

5.1 Waymo、Cruise 等国际领先企业的应用实践

Waymo：利用多帧轨迹监督训练长时策略模型

Waymo在其端到端建模中高度重视“驾驶者行为模式”的重建，其Motion数据子集中就明确提供连续时间片段，涵盖目标ID、速度、加速度、轨迹点等详细标签。这使得模型不仅能预测当前位置的控制指令，还能在更长时间窗口内回归未来数秒的目标行为。Waymo同时还在内部实验中提出“多策略采样+交互式回放”的数据构建方法，以增强端到端模型对复杂交通情境中“多种合理解”的学习能力。

Cruise：闭环回放与重演强化策略一致性

Cruise在训练其城市端到端决策系统时，强调用连续数据复现真实驾驶状态变化。其独特的回放+仿真结合训练流程中，模型需在“给定过去行为”的前提下预测未来动作路径。这种设计促使模型从“即时控制”转向“连续意图生成”。Cruise还建立专门的轨迹一致性度量指标，评估模型预测结果与人类驾驶策略在时间维度上的拟合度，进一步验证了连续数据对策略一致性的重要支撑作用。

5.2 理想、小鹏、华为、亮道智能：国内代表性路径实践

理想汽车：基于自然驾驶行为段构建时序学习样本

理想汽车在L2+系统中已部署多套轻量化端到端模型，其数据策略以“行为单元”为核心单位。通过对自然驾驶轨迹进行聚类分析与行为识别，提取如“变道插队”“进出匝道”等行为序列，构成完整的时序样本用于训练。同时，理想还基于自研的多模态数据管理平台，实现视频、点云、轨迹、控制数据的全链路同步，为端到端策略训练构建了坚实的数据基础。

VLM模型在驾驶过程中，自动标注视频帧和传感器信号以生成轨迹和其他标签。此外，对视频帧应用自动描述生成，以生成行为和推理的描述

理想汽车推出ReconDreamer世界模型

理想汽车双系统架构

系统1（端到端）&系统2（VLM）架构

小鹏汽车：BEV+Transformer结构融合连续帧输入

小鹏在端到端感知-规控一体化方向的研究中，积极引入BEV表示与时序Transformer结构。其训练样本由10-20秒连续帧构成，包含目标跟踪ID、语义地图、路径偏差等多层次真值标注，极大提升了模型在多车交互和密集城市道路场景中的稳定性。小鹏内部评估数据显示，在引入连续帧轨迹监督后，其轨迹预测偏差下降约27%，同时在“追尾危险”场景中提前干预率提升显著。

小鹏XNGP模块化端到端架构

主流的端到端架构vs小鹏汽车的端到端架构

华为智能汽车：构建端到端训练的全流程时序平台

华为通过其MDC平台，将数据闭环能力从静态采集升级为“行为段级别”的连续信息提取。其数据平台支持CAN、感知、定位、地图等多模态信号的毫秒级时间对齐，并通过规则引擎自动识别关键决策事件，输出结构化连续标签序列。同时，华为在训练端采用“时间窗滚动预测”机制，使端到端模型能够自适应地感知过去状态变化并动态调整策略，显著提升城市通勤中的跟车舒适性与安全性。