机器也能看图说话
基于 Image Captioning 的 VQA(视觉问答)
Image Captioning是实现视觉认知的一个重要方面,现在基于上文提及的谷歌提出的Image Captioning模型来构造对场景的理解,并进行问答。
问题:地面上覆盖着什么?
模型回答:积雪
问题:地面上覆盖着什么?模型回答:积雪情况变得不那么乐观了
深度学习系统,例如用于VQA的系统,可能会发展出类似的“作弊”方法,表面上似乎“解决了”任务,而无需学习潜在的推理过程。 例如,模型可以正确回答“地面覆盖着什么?”这个问题,不是因为它理解了场景,而是因为有偏差的数据集经常在积雪时提出有关地面的问题。 我们怎样才能确定一个系统是否能够进行复杂的推理而不仅仅是利用数据的偏差?模型即使给出了正确的回答,我们仍然要明确重要一点:这个正确答案是模型真正通过一步一步推理得到的,还是通过对图像和问题的肤浅理解,利用数据集偏差,得到的统计结果。 因此就需要在图像感知基础上进行理解、推理、认知,并构建数据集。
Visual Genome(视觉基因组)
这是斯坦福李飞飞团队构建的数据集,它就是尝试解决这样的问题。
现有模型能够检测照片中的离散对象(人或物);但无法解释它们之间的交互(interactions)或它们之间的关系; 大多数模型停留在感知智能阶段; 对视觉世界的推理与认知理解 要求计算机不仅具有检测对象的能力,还要具有描述这些对象的能力,并理解它们在场景中的相互作用。
采用自然语言对图像内容进行描述,加进去人类的认知理解构造训练集。进一步通过知识图谱工程(关系抽取、实体链接等等),标注出对象(Objects)、属性(Attribute)和关系(Relationships)。 构造视觉概念到语义层面的数据集: 提供目标对象的交互和属性的详细标注;对人、事、物、关系进一步密集标注;将注释词汇映射到WordNet中实现规范化;对每个区域构建一个组织关系图;联结一张图片上的所有区域图,构成一个完整的场景图。
然而,上述数据集构造人力成本大,下面介绍生成式推理数据集CLEVR。
生成式推理数据集CLEVR
CLEVR是一个诊断数据集,用于构成语言和基本视觉推理的场景,由斯坦福李飞飞团队和Facebook AI研究所合作研发。 CLEVR 数据集包含:
10万幅渲染图像;
100万条自动生成的问题,其中85.3万条独一无二的问题。
它具有挑战性的图像和问题对,可以测试视觉推理能力,如计数、比较、逻辑推理和在记忆中存储信息。 下面是来自CLEVR的示例图像和问题,问题测试视觉推理的方面,例如属性识别、计数、比较、多重注意和逻辑操作。
问:大型物体和金属球体的数量是否相等?问:大球体左边的棕色金属物体的左边的圆柱体是什么尺寸的?问:有一个和金属立方体大小相同的球体,它是由和小红球相同的材料制成的吗?问:有多少物体是小圆柱体还是红色的?
CLEVR数据集优于其他数据集的两点:
(1)CLEVR最大限度地减少了先前VQA数据集的偏差,避免学习系统在没有视觉推理的情况下就可以正确回答问题的情况;(2)CLEVR的合成性质和详细注释有助于深入分析现有数据集无法实现的推理能力。 下图可以直观呈现出CLEVR数据集是如何生成的。
CLEVR中的每个问题都与一个可以在图像的场景图(Scene Graph) 上执行的功能程序(Functional Program) 相关联,从而得到问题的答案。 CLEVR中的每个问题都以自然语言和功能性程序表示。功能程序表示精确确定回答每个问题所需的推理技能。
我们使用问题族的方法,以最小化问题条件偏差的方式将功能程序转换为自然语言。 CLEVR包含总共90个问题族,每个族都有一个程序模板和平均四个文本模板;文本模板是通过为每个族手动编写一个或两个模板然后众包问题重写生成的;为了进一步增加语言多样性,我们对每种形状,颜色和材料使用一组同义词;每个模板最多有19个参数,少数族可以生成大量独特的问题; 右图显示了CLEVR中近一百万个问题,超过85.3万个是独一无二的。通过添加新的问题族可以轻松扩展CLEVR。 CLEVR数据集上六种VQA方法:在每个问题类型的准确度(越高越好)
Q-typemode:该Baseline 对于每个问题类型预测最常见的训练集答案。
LSTM:问题是用学习得到的单词嵌入和单词级LSTM进行处理的。最终的LSTM隐藏状态被传递给多层感知器(MLP),以预测可能答案的分布。此方法不使用图像信息,因此它只能建模了(学习了)问题条件偏差。
CNN+ BoW:BoW( Bag of Words, 词袋), 问题中的每个单词的词向量求平均来编码该问题,并且使用卷积网络(CNN)提取的图像特征对图像进行编码。问题和图像特征被级联然后传递给多层感知器(MLP),MLP预测可能答案的分布。我们使用在Google-News语料库中训练的词向量; 这些在训练期间没有经过微调。
CNN+LSTM:图像和问题分别使用CNN特征和LSTM的最终隐藏状态进行编码,这些特征被级联并传递给MLP以预测答案分布。
最新活动更多
-
3月29日立即报名>> 【线下论坛】2024亚马逊云科技 出海全球化论坛
-
4月2日马上预约>> 智能医疗设备测试的挑战
-
4月18-19日立即报名 >> OFweek 2024(第十三届)中国机器人产业大会
-
4月26日立即报名 >> 【线上研讨会】TDK模块化电容器、电能质量解决方案
-
4月30日免费下载 >> SPM31智能功率模块助力降低供暖和制冷能耗,打造可持续未来!
-
4月30日限时免费下载>> 高动态范围(eHDR)成像设计指南
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论