Qwen3-VL-Flash提升13.62%！浙大等首创CoV:多步推理具身问答Agent，通用提点神器

2026-01-14 14:06

AI生成未来

关注

作者：CoV团队

解读：AI生成未来

亮点直击

CoV 框架：首创“视链提示”（Chain-of-View, CoV），一个免训练、测试时（test-time）的具身问答智能体框架。

主动视觉推理：将传统被动的视觉语言模型（VLM）转变为主动的视点搜索者，使其能够像人类一样通过移动视角来探索环境。

验证测试时扩展性（Test-Time Scaling）：通过增加推理时的“行动预算”（即允许模型多走几步、多看几次），可以持续提升模型性能，而无需重新训练模型。

显著的通用提升：该方法是模型无关的（Model-Agnostic），在多个主流 VLM（如 GPT-4o, Gemini, Qwen）上均取得了显著的性能提升。

从宇树机器人登上春晚舞台，到首届“世界人形机器人运动会”火遍全球，“具身智能”可谓是今年AI领域最出圈的关键词之一。人工智能正大举从数字领域迈向物理现实，在这一背景下，具身问答任务（EQA） 显得愈发重要。EQA任务的核心挑战在于，智能体必须像人类一样，在复杂的物理空间中定位关键信息，并生成准确答案。

传统方法往往依赖有限且视角固定的图像输入，这使得VLM难以获取足够多与问题相关的视觉线索。在复杂的具身问答场景中，答案并非一目了然，大多数问题都需要经过多步推理才能解决。

例如，面对“哪里可以找到汽水？”这样的问题，场景中可能并未直接出现汽水。智能体不仅需要调用“汽水通常存放在冰箱里”这类常识知识，还需自主规划路径，在环境中搜寻冰箱等关联物体。这类问题的解答，依赖VLM在充分、相关的上下文信息中进行连续推理，而无法通过单次的生成步骤来完成。

研究人员提出了一种多步推理的具身问答智能体框架：Chain of View(CoV），旨在实现从被动观察到迭代式自主探索的转变。应用CoV框架后，模型整体性能在最新的EQA基准测试上平均提升了10.82% 。其中，Qwen3-VL-Flash模型提升达到了13.62% 。

粗粒度筛选，快速确定视角锚点

CoV的整体流程包含两个阶段：粗粒度视角筛选（Coarse-grained View Selection）与细粒度视角调整（Fine-grained View Adjustment）。

在实际场景中，智能体获取的视觉输入通常来源于一段连续的视频片段。这些原始帧往往包含大量冗余信息。对于任何一个具体问题，通常只有少数几帧图像与其相关。而过多的无关视觉信息，反而会干扰模型的判断。

为此，CoV引入了视角粗选智能体，其核心任务是从原始可用的视角中，主动筛选出与当前问题最相关的关键视角，从而为后续的推理步骤提供与问题强相关的视角基础。

细粒度调整，精确锁定问题相关视角

以往的方法通常将智能体置于被动，它只能从一组预先给定的、有限的固定图像中寻找答案。这种“一步生成”的模式，放弃了进一步搜寻相关环境细节的可能性，也因此限制了模型进行深度、多步思考的能力。

受思维链（CoT）启发，研究人员提出细粒度的视角调整机制。该方法能为模型动态补充与问题相关的环境信息，让智能体在持续的观察与思考中逐步逼近答案。对粗粒度视角筛选阶段得到的视觉锚点，VLM会规划并执行一系列视角调整动作，包括平移、旋转以及在不同视角间切换三类操作。

这一系列视角调整使得智能体能够主动地、有目的地调整其观察位置与朝向，从而获取对解答问题至关重要的环境细节，提升EQA表现。当智能体认为已经获取到足够的信息回答问题时，停止视角调整，并基于精心构建的视觉上下文给出最终答案。

刷新EQA基准测试

研究人员在包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试上进行了大量实验。在反映生成文本与人类回答相似度的CIDEr指标上，CoV得分达到116；在ScanQA数据集上的首次回答准确率（EM@1）也达到31.9%。应用CoV框架后，VLM整体性能在OpenEQA测试基准上平均提升了10.82%。