订阅
纠错
加入自媒体

机器也能看图说话

2020-06-22 10:48
深兰科技
关注

CNN+LSTM+MCB:图像和问题分别使用CNN特征和LSTM的最终隐藏状态进行编码,但接下来不是级联,而是使用紧凑的多模池化 (MCB)汇集它们的特征。(MCB, Multimodal CompactBilinear pooling, 多模紧凑双线性池化)

CNN+LSTM+SA:同样,问题和图像分别使用CNN和LSTM编码。使用一轮或多轮柔性空间注意力来组合这些表示,然后用MLP预测最终答案分布。(Stacked Attention Networks,SANs, 堆叠注意力网络)

Human:使用土耳其机器人从测试集中随机收集5500个问题的人工响应,对每个问题在三个工人响应中进行投票取多数。 查询问题询问特定对象的属性(例如“红色球体右侧物体是什么颜色?”) CLEVR数据集中物体有两种尺寸(大,小),八种颜色,两种材料(金属,橡胶)和三种形状(立方,球,圆柱)。在询问这些不同属性的问题上,Q-type mode 和 LSTM 都分别获得接近50%,12.5%,50%和33%的准确度,表明数据集对这些问题具有最小的问题条件偏差。 CNN + LSTM + SA 在这些问题上大大优于所有其他模式; 它的注意力机制可以帮助它专注于目标对象并识别其属性。

我们比较“两个空间关系的链式结构问题“和”沿着每个分支都有一个关系的树状结构问题“性能。 在查询问题上,CNN + LSTM + SA 在链式和树状问题之间存在较大差距(92%对74%);在计数问题上,CNN + LSTM + SA 在链式问题上略胜LSTM(55%对49%)但在树问题上没有任何方法优于LSTM。树问题可能更难,因为它们需要模型在融合其结果之前并行执行两个子任务。

数据集构建好了,就可以在此基础上探索视觉语义推理算法 用于机器推理的组合注意网络 斯坦福Christ师生提出了组合注意力网络,是一种新的、完全可区分的神经网络架构,旨在促进显性和表达性推理。其特点包括:

1、许多常见类型的神经网络在学习和泛化大量数据方面是有效的,然而是单一黑盒架构。

2、该‘组合注意推理网络’为迭代推理提供强大优先级的设计,支持可解释和结构化学习,从小样本数据的泛化能力强。

3、该模型基于现有循环神经网络,对单个循环记忆、注意力和控制(MAC)单元进行序列化,对每个单元和它们之间的相互作用施加结构约束,将显式控制和软注意机制合并到它们的接口中。

4、该模型在具有挑战性的CLEVR数据集上展示了极好强度和稳健性,用于视觉推理,实现了最新的98.9%的精确度,将之前最佳模型的错误率减半。更重要的是,我们新模型的计算效率更高,数据效率更高。 该模型是一个基于注意力的循环神经网络,使用了一种新的  MAC架构:记忆(Memory),注意力(Attention),合成(Composition)。MAC架构,是一个循环架构,类似于LSTM,每个Cell的结构如上图,由控制单元CU,读单元RU和写单元WU组成。蓝色显示控制流(Control Flow),红色显示记忆流(Memory Flow)。

每个cell的MACi包含两个双重状态:

1、控制态ci、记忆态mi2、都是d维连续空间矢量3、控制 ci 表示:MAC cell 在当前步骤中应该完成的推理操作,仅关注整个问题的某些方面。由加权平均后基于注意力问题词的总和表示4、记忆态 mi 表示:那些被认为与响应查询或者回答问题相关的当前上下文信息,实际上,mi 通过对来自知识库(KB)的元素的加权平均来表示,或者对于VQA的情况,对图像中的区域进行加权平均。5、将 m0 和 c0 分别初始化为d随机矢量6、控制态ci 和记忆态mi 以循环方式从一个cell传递到下一个cell,并以类似 键值记忆网络(Key-Value memory networks) 的方式运行 MAC 原理

精心设计和限制MAC cell内部单元之间的相互作用的接口,限制了其可以学习的假设空间,从而引导其获得预期的推理行为,因此,该结构有助于增强学习过程并减轻过度拟合问题。

MAC允许问题与知识库 (对于VQA的情况,就是指图像) 仅仅通过间接方式进行交互,引导cell关注知识库KB中的不同元素,通过门控机制控制其操作。因此,在这两种情况下,这些媒介(视觉和文本,或知识和查询)之间的相互作用,或者以注意力图(Attention Maps)的形式、或者作为门,通过概率分布来调节。

三、场景图

现实世界的场景表示要复杂的多,不仅仅是物体之间的前后左右位置关系,还有on, has,wearing, of, in 等等关系。 2015年,李飞飞参与的一篇图像检索的文章中提到,可以用场景图(Scene Graph)的方法来提升图像检索的性能,也是一个开创性的工作,文章里首次对场景图进行了定义。场景图是用来描述场景中的内容的结构化数据,把目标的属性做编码,把目标的关系提炼出来作为机器的输入。

场景图生成的新算法之一,在CVPR 2019的一篇论文中有所体现,它采用图卷积网络、知识嵌入式路由网络,生成了场景图。 场景图应用基本在四大方面:图像检索、Image Captioning(看图说话)、Video Captioning、Visual Reasoning(视觉推理)。文章开头提到的“智慧交通协管员”正是Video Captioning的表现形式。

<上一页  1  2  3  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号