ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航
一、方法架构
本文的核心——模型未知的对抗路径采样器显示如下,首先APS从路径集P中采样出一批路径、并利用Speaker来得到复现的指令I。

对抗采样器APS的学习架构,其中Speaker表示用于生成导航指令的反向翻译语言模型,而NAV表示导航模型。
在获取路径P和指令I后,模型的目标就在于优化导航损失函数。针对APS学习采样的路径,导航器并不能通过最大化导航损失来得到较好的性能。针对导航损失在导航模型NAV和APS之间会产生对抗的行为,APS不断采样出有挑战性的路径,同时NAV则尝试着在APS申请的路径中进行导航完成任务。通过这种对抗方法,基于P和I生成的对抗增强数据将有效提升NAV的导航能力。在实际过程中,Speaker和导航器都通过原始数据进行了预训练,同时Speaker在对抗训练过程中参数保持固定。
在本文中,研究人员使用了回归行为采样器πAPS来采样行为序列at(基于场景特征ft),并结合得到路径输出。其中ft表示从环境中抽取的视觉特征。对于全景输入图像来说,ftj表示时间t时从视角j获取的视觉特征。

对抗采样器的架构模型
模型首先利用LSTM对先前的视觉特征和上一步行为进行编码,而后基于历史编码和行为嵌入u来决定此时此刻需要采取的行为。APS模型中包含了一系列可学习的权重,具体可以在原文3.3部分找到详细的理论描述。
在通过APS处理后,将得到的一系列导航历史{at}和视觉特征{ftj}组建成路径P。为了保持与原始训练数据的一致性(其导航路径都是最短路径),需要将APS采样得到的路径转换为最小路径。随后通过Speaker模型为每一条采样路径P生成指令I,最终将得到增强过的数据对(P,I)。随后通过“学生强制”的方法基于(P,I)来对导航模型进行训练,其中训练损失以可以视为NAV在(P,I)下的性能指标,损失越高性能越差。为了创造难度不断增加的路径来改善导航策略,研究人员将APS损失定义为了与LAN损失相关的表示:

由于APS与模型无关,它仅仅考虑导航模型训练损失而不关系模型架构,所以这种机制可以被集成到任意的导航模型中去。
下面的算法展示了整个对抗路径采样器的训练过程,APS目标是最大化导航损失以便创建尽可能困难的路径,而NAV的目标则是最小化导航损失以便进行更好的导航。

最新活动更多
-
10 阿里AI需要算一笔账了
- 1 GPT-6要来了,但AI行业早不跟 OpenAI玩了
- 2 产业丨算电协同+Token出海,中国电力与算力全球化双引擎
- 3 火爆的“Token经济学”,关乎你的钱包、职场和未来消费 | 人人能懂的产业报告
- 4 资本巨头纷纷抽身,为何中小投资者仍为AI狂热加码?
- 5 大厂财报中的AI图鉴:营收单列、玩杠杆、商业画饼
- 6 从百度到Meta,科技巨头的 AI 组织战,开打了
- 7 2026年3月,国内具身智能机器人企业融资汇总
- 8 华勤财报发布:收入规模破1700亿,利润增长近40%
- 9 宇树科技招股书透视:中外具身智能玩家生存竞速
- 10 大涨30%!智谱 AI 财报出炉:营收暴增132%,API 增长3倍,市值破 4000 亿


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论