Qwen3-VL-Flash提升13.62%!浙大等首创CoV:多步推理具身问答Agent,通用提点神器
作者:CoV团队
解读:AI生成未来
亮点直击
CoV 框架:首创“视链提示”(Chain-of-View, CoV),一个免训练、测试时(test-time)的具身问答智能体框架。
主动视觉推理:将传统被动的视觉语言模型(VLM)转变为主动的视点搜索者,使其能够像人类一样通过移动视角来探索环境。
验证测试时扩展性(Test-Time Scaling):通过增加推理时的“行动预算”(即允许模型多走几步、多看几次),可以持续提升模型性能,而无需重新训练模型。
显著的通用提升:该方法是模型无关的(Model-Agnostic),在多个主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了显著的性能提升。
从宇树机器人登上春晚舞台,到首届“世界人形机器人运动会”火遍全球,“具身智能”可谓是今年AI领域最出圈的关键词之一。人工智能正大举从数字领域迈向物理现实,在这一背景下,具身问答任务(EQA) 显得愈发重要。EQA任务的核心挑战在于,智能体必须像人类一样,在复杂的物理空间中定位关键信息,并生成准确答案。
传统方法往往依赖有限且视角固定的图像输入,这使得VLM难以获取足够多与问题相关的视觉线索。在复杂的具身问答场景中,答案并非一目了然,大多数问题都需要经过多步推理才能解决。
例如,面对“哪里可以找到汽水?”这样的问题,场景中可能并未直接出现汽水。智能体不仅需要调用“汽水通常存放在冰箱里”这类常识知识,还需自主规划路径,在环境中搜寻冰箱等关联物体。这类问题的解答,依赖VLM在充分、相关的上下文信息中进行连续推理,而无法通过单次的生成步骤来完成。
研究人员提出了一种多步推理的具身问答智能体框架:Chain of View(CoV),旨在实现从被动观察到迭代式自主探索的转变。应用CoV框架后,模型整体性能在最新的EQA基准测试上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升达到了13.62% 。

粗粒度筛选,快速确定视角锚点
CoV的整体流程包含两个阶段:粗粒度视角筛选(Coarse-grained View Selection)与细粒度视角调整(Fine-grained View Adjustment)。
在实际场景中,智能体获取的视觉输入通常来源于一段连续的视频片段。这些原始帧往往包含大量冗余信息。对于任何一个具体问题,通常只有少数几帧图像与其相关。而过多的无关视觉信息,反而会干扰模型的判断。
为此,CoV引入了视角粗选智能体,其核心任务是从原始可用的视角中,主动筛选出与当前问题最相关的关键视角,从而为后续的推理步骤提供与问题强相关的视角基础。
细粒度调整,精确锁定问题相关视角
以往的方法通常将智能体置于被动,它只能从一组预先给定的、有限的固定图像中寻找答案。这种“一步生成”的模式,放弃了进一步搜寻相关环境细节的可能性,也因此限制了模型进行深度、多步思考的能力。
受思维链(CoT)启发,研究人员提出细粒度的视角调整机制。该方法能为模型动态补充与问题相关的环境信息,让智能体在持续的观察与思考中逐步逼近答案。对粗粒度视角筛选阶段得到的视觉锚点,VLM会规划并执行一系列视角调整动作,包括平移、旋转以及在不同视角间切换三类操作。
这一系列视角调整使得智能体能够主动地、有目的地调整其观察位置与朝向,从而获取对解答问题至关重要的环境细节,提升EQA表现。 当智能体认为已经获取到足够的信息回答问题时,停止视角调整,并基于精心构建的视觉上下文给出最终答案。

刷新EQA基准测试
研究人员在包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试上进行了大量实验。在反映生成文本与人类回答相似度的CIDEr指标上,CoV得分达到116;在ScanQA数据集上的首次回答准确率(EM@1)也达到31.9%。应用CoV框架后,VLM整体性能在OpenEQA测试基准上平均提升了10.82%。


强大的Test-time Scaling性能

研究人员还发现,智能体自主行动步数越多,获取的信息越多,EQA任务的表现也会呈现上升趋势。在不限制行动步数的情况下,绝大多数问题所涉及的行动步数偏少,集中在1到3步。随着动作步数的增加,模型在相应问题上的得分呈现出明显的上升趋势。
通过在提示词中限制VLM的最小行动步数,与仅允许单步行动的设置相比,提升动作步数上限后VLM性能平均提高了2.51%。这一结果表明,多步推理能有效增强智能体在具身问答任务中的表现。CoV无需额外训练,仅通过增加行动步数即可实现性能增益,展现出显著的“无需训练,测试扩展”潜力。
总的来讲,CoV是一个多步推理具身问答Agent框架,能允许VLM自主获取更多和问题相关的视角。这项工作有效提升了VLM在EQA任务上的表现,并且具备test-time scaling的潜力,为通向在复杂空间中行动、适应并探索的具身智能系统,提供了新的可能性。
参考文献
[1] CoV: Chain-of-View Prompting for Spatial Reasoning
原文标题 : Qwen3-VL-Flash提升13.62%!浙大等首创CoV:多步推理具身问答Agent,通用提点神器
最新活动更多
-
9 昆仑天工不玩了
- 1 2026十大AI趋势发布,背后暗藏三条主线
- 2 DeepSeek V4发布在即,泼天富贵已来
- 3 2026大模型赛道新年启示:在20%的胜率下,笨笨地坚持
- 4 国产多模态搜索史诗级突破!Qwen3-VL登顶MMEB:支持30+语言,一套模型搞定图文视频
- 5 2026年的人工智能行业:应用爆发、架构突破、物理AI
- 6 8个月干到1亿美金!盘点全球最赚钱9家AI应用,AI 商业逻辑彻底变了
- 7 半年跑完短剧两年路!90%的AI漫剧公司,都在亏钱?
- 8 大模型日报| 字节跳动对多模态又有了新创意,HBM刻蚀需求爆发
- 9 硅谷顶级风投a16z最新报告:SaaS已死,AI应用的护城河来自三方面
- 10 对AI眼镜的投资,又要火了 | 人人能懂的产业报告


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论