订阅
纠错
加入自媒体

顶会竞赛最后5天被Facebook超越,又大比分反超夺冠是什么体验?

2020-07-21 14:58
将门创投
关注

本文为将门技术社群第227期talk直播的文字内容整理分享嘉宾:旷视南京研究院研究员 赵冰辰

众所周知,参加顶会竞赛是当今AI研究人员锻炼自身、验证已有学术成果的一大舞台。从2017年到现在,旷视研究院在全球顶会累计荣获28项世界冠军,好奇的同学们肯定想知道其中的经验与技巧。
为此我们很荣幸邀请到旷视南京研究院研究员—赵冰辰,与大家分享其团队在 CVPR 2020 iWildCam 项目夺冠的经历,同时也介绍了他们在本次比赛中针对 Camera Trap 数据的特点设计的方法及冠军方案。

值得一提的是,虽然旷视南京研究院在整个参赛过程中持续领先,但就在最终截止日期前5天,Facebook突然大比分反超。经过对现有模型的快速分析,团队通过序列和日期信息大幅提升了模型性能近10个点,在48小时内重新登顶,并夺得iWildCam的全球冠军。

本文回顾了此次比赛的基本背景、团队方案,并介绍了团队总结的参赛经验,希望能为同学们带来启发。

背景

iWildCam竞赛隶属于 CVPR 2020 FGVC workshop, 其目的是利用部署在野外无人操纵的 Camera Trap 来识别野生动物,从而辅助对野生动物的研究与保护。该比赛的难点在于,由于 Camera Trap 的拍摄机制是通过热感或运动来触发相机,因此成像效果与ImageNet或者是iNaturalist中的图像有很大区别。

一个典型的camera trap设备 例如下图,每张图片中都存在动物,但是由于 camera trap 无人操纵的特性,获取的画面会受到光照、模糊、小ROI、遮挡、奇异视角、或者动物本身保护色等诸多因素的干扰。 可以发现,定位到这些动物并且给出正确分类,即使对人类来说也比较困难。

Camera Trap数据的另外一个特点在于画面背景。由于camera trap固定在某个区域进行拍摄,因此由特定camera trap所采集到的图片背景相似度极高。如下图,Camera-1和Camera-2分别对应部署在两个位置的camera trap,可以发现同一个camera拍到的图片背景基本一致。而相应的,不同camera获取的背景差异显著。

因此,这对分类模型的泛化性提出了极高的要求。iWildCam数据集总共包括263个类别,28万张图片,其中训练集441个camera trap,测试集111个camera trap。主办方将全部552个位置的camera trap分成为train set 441个,和test set 111个,这也就是说测试集图片全部来自训练集之外的camera trap 。 另外,类别数据的长尾分布也是必须考虑的问题。 因此可以总结,在Camera Trap场景下,主要存在三个问题: Camera Trap无人操作导致的图像模糊,遮挡等问题。来自训练与测试集不同背景所导致的泛化问题。野生动物分布带来的长尾问题。  针对上述问题,旷视南京研究院在此次参赛中进行了逐项攻克。  挑战一:ROI尺寸过小 如前所述,iWildCam的第一个挑战来自于camera trap所捕获的画面,即动物图片经常存在过小或者被遮挡等问题。 因此比赛主办方提供了Mega Detector(一个微软提供的Camera Trap动物检测器,输出类别只有animal和background)。 因此,旷视南京研究院用Mega Detector来提取图像的ROI区域,从辅助进一步的分类工作。

1  2  3  4  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号