顶会竞赛最后5天被Facebook超越,又大比分反超夺冠是什么体验?

本文为将门技术社群第227期talk直播的文字内容整理分享嘉宾:旷视南京研究院研究员 赵冰辰

众所周知,参加顶会竞赛是当今AI研究人员锻炼自身、验证已有学术成果的一大舞台。从2017年到现在,旷视研究院在全球顶会累计荣获28项世界冠军,好奇的同学们肯定想知道其中的经验与技巧。为此我们很荣幸邀请到旷视南京研究院研究员—赵冰辰,与大家分享其团队在 CVPR 2020 iWildCam 项目夺冠的经历,同时也介绍了他们在本次比赛中针对 Camera Trap 数据的特点设计的方法及冠军方案。

值得一提的是,虽然旷视南京研究院在整个参赛过程中持续领先,但就在最终截止日期前5天,Facebook突然大比分反超。经过对现有模型的快速分析,团队通过序列和日期信息大幅提升了模型性能近10个点,在48小时内重新登顶,并夺得iWildCam的全球冠军。

本文回顾了此次比赛的基本背景、团队方案,并介绍了团队总结的参赛经验,希望能为同学们带来启发。

背景

iWildCam竞赛隶属于 CVPR 2020 FGVC workshop, 其目的是利用部署在野外无人操纵的 Camera Trap 来识别野生动物,从而辅助对野生动物的研究与保护。该比赛的难点在于,由于 Camera Trap 的拍摄机制是通过热感或运动来触发相机,因此成像效果与ImageNet或者是iNaturalist中的图像有很大区别。

一个典型的camera trap设备 例如下图,每张图片中都存在动物,但是由于 camera trap 无人操纵的特性,获取的画面会受到光照、模糊、小ROI、遮挡、奇异视角、或者动物本身保护色等诸多因素的干扰。 可以发现,定位到这些动物并且给出正确分类,即使对人类来说也比较困难。

Camera Trap数据的另外一个特点在于画面背景。由于camera trap固定在某个区域进行拍摄,因此由特定camera trap所采集到的图片背景相似度极高。如下图,Camera-1和Camera-2分别对应部署在两个位置的camera trap,可以发现同一个camera拍到的图片背景基本一致。而相应的,不同camera获取的背景差异显著。

因此,这对分类模型的泛化性提出了极高的要求。iWildCam数据集总共包括263个类别,28万张图片,其中训练集441个camera trap,测试集111个camera trap。主办方将全部552个位置的camera trap分成为train set 441个,和test set 111个,这也就是说测试集图片全部来自训练集之外的camera trap 。 另外,类别数据的长尾分布也是必须考虑的问题。 因此可以总结,在Camera Trap场景下,主要存在三个问题: Camera Trap无人操作导致的图像模糊,遮挡等问题。来自训练与测试集不同背景所导致的泛化问题。野生动物分布带来的长尾问题。 针对上述问题,旷视南京研究院在此次参赛中进行了逐项攻克。 挑战一:ROI尺寸过小 如前所述,iWildCam的第一个挑战来自于camera trap所捕获的画面,即动物图片经常存在过小或者被遮挡等问题。 因此比赛主办方提供了Mega Detector(一个微软提供的Camera Trap动物检测器,输出类别只有animal和background)。 因此,旷视南京研究院用Mega Detector来提取图像的ROI区域,从辅助进一步的分类工作。

1234下一页>

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2020-07-21
顶会竞赛最后5天被Facebook超越,又大比分反超夺冠是什么体验?
本文为将门技术社群第227期talk直播的文字内容整理分享嘉宾:旷视南京研究院研究员 赵冰辰众所周知,参加顶会竞赛是当今AI研究人员锻炼自身、验证已有学术成果的一大舞台。

长按扫码 阅读全文

Baidu
map