顶会竞赛最后5天被Facebook超越,又大比分反超夺冠是什么体验?

一种简单的利用方式是将Mega Detector预测的BBox 裁剪出来,同原图一起送给网络进行训练,这样可以有效环节ROI 尺寸过小的问题。 不过这种方案的缺陷在于,如此训练分类网络,会使得网络获得两个scale完全不同的输入,一个是原图,一个是BBox裁剪出的图像,这会对分类网络学习特征带来一定的干扰。

为此,团队修改了策略,同时训练两个网络。分别输入原始图像,和Mega detector裁剪出的置信度最高的bbox图像。 在预测阶段,再将网络的输出进行Ensemble,从而可以同时捕捉到原图全局的信息和BBox中前景的信息。 挑战二:不同背景造成的问题 除过ROI 储存过小之外,另一个问题是训练集的camera trap 取景位置和测试集的camera trap 不相交所导致的背景差异问题。

训练集图片均来自于蓝色点表示的区域,它和红色区域没有相交。 因此这会造成domain shift的问题。即在训练地表现好的模型并不一定也会在test地有同样表现。因为模型有可能学到一些和location相关的信息,而它们不是可以用于分类动物的通用信息。 此外,与正常的domain adaptation不同,iWildCam 的训练集包括很多不同domain(如果将每个camera trap地点作为一个domain,则训练集包含441个,而测试集包含111个)。 因此,如果能利用训练集中的位置标注来帮助网络学习location invariant的特征,那么网络就可捕捉更多与位置无关而和分类相关的信息。 对此,domain adaptation领域非常著名的论文Unsupervised domain adaption by backpropagation为团队提供了启发。

如上图首先可以假设,如果在原来的2048维上加一个额外位置(location)的classifier,那么网络提取的特征就会倾向于将不同location的特征相互推远。如上方右图所示(不同形状表示不同类别,不同颜色表示不同),虽然每个类别的特征之间有分类的可分性约束,但是location之间的相互排斥也会导致一些location图片的特征被推到一个不太有利于分类的局面,从而导致网络学到的特征并不能实现location invariant,从而在测试集上表现欠佳。 对此,文章提出一个非常简单的梯度翻转的技巧来实现location invariant。

如上方左图所示,在梯度反传经过location classifier时将梯度乘-1,从而实现翻转梯度的方向。
因此在右图可以看到,原本的推开不同location之间特征的梯度经过翻转后,会将其一起拉近。在加上分类的约束后,可以保证网络学到的特征表示实现location invariant,并且还能保证分类的效果,提高网络对之前未见的location的泛化性能。 挑战三:数据长尾分布

上方指数图展示的是数据的分布情况,可以看到数目最多的类别有超过十万张图,而最少的类别可能只有不到十张图片,一般而言,将类别数多的类别称为head类,类别数少的类别称为tail类 。 因此,如果直接随机采样batch来训练分类模型,会见到很多head类样本,而tail类样本则很少见到,这样会使得模型更偏向于预测head类而不是tail类,从而损伤网络的表示能力。 因此,对于长尾分布,一般有两种解决方案,一种是Re-Sampling, 另外一种是Re- Weighting。
最新活动更多
-
10 阿里AI需要算一笔账了
- 1 GPT-6要来了,但AI行业早不跟 OpenAI玩了
- 2 火爆的“Token经济学”,关乎你的钱包、职场和未来消费 | 人人能懂的产业报告
- 3 资本巨头纷纷抽身,为何中小投资者仍为AI狂热加码?
- 4 大厂财报中的AI图鉴:营收单列、玩杠杆、商业画饼
- 5 从百度到Meta,科技巨头的 AI 组织战,开打了
- 6 宇树科技招股书透视:中外具身智能玩家生存竞速
- 7 2026年3月,国内具身智能机器人企业融资汇总
- 8 华勤财报发布:收入规模破1700亿,利润增长近40%
- 9 谷歌Gemma 4遭破解!实测:伪造支票、找盗版电影,有求必应
- 10 大涨30%!智谱 AI 财报出炉:营收暴增132%,API 增长3倍,市值破 4000 亿


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论