近日,腾讯优图实验室在CVPR2021举办的Image Matching Workshop(IMW2021)比赛中,提出的图像匹配技术 (SS-Fusing)荣获双赛道冠亚军。IMW2021是Google和University of British Columbia(UBC)联合举办的Workshop比赛,吸引了包括旷视,商汤,EPFL,KORNIA,华中科大和OPPO等公司、学校和机构参加。
作为计算机视觉领域的基础技术之一,Image Matching是指寻找一张图片中拍摄的子区域在另一张图片中的对应位置,广泛应用于包括SFM、SLAM、三维重建、大规模图像检索,缺陷检测与配准等领域。
图1、图像匹配技术示例
本次比赛的评测机制如图2所示,参赛者根据自己提出的方法提取每张图的关键点和对应描述子,并提交每两张图之间的匹配结果,赛方会根据提交的结果统计两种评估方案:1.通过对比两张图之间匹配结果对应的相机位姿和真实位姿之间的差异(Stereo)。2.根据多张图之间的关键点匹配结果,统计重建后预测全图的相机位姿和真实位姿之间的差异(Multi-view)。因此对于任意两张图之间,关键点的分布越分散,匹配的点越准,则位姿估计的效果越好。
图2、比赛流程图
此外,本届比赛分为限制性赛道(Restricted category)和非限制性赛道(Unlimited category),其中限制性赛道要求参赛者提交有限的关键点和对应描述子,非限制性赛道可提交不限数量的关键点对和对应描述子。相较于前两届比赛,本届比赛增加了街景和公园等场景,图片之间的角度和尺度变换更大,对算法挑战非常大,因此我们同时针对关键点的提取部分和匹配准确度部分都做了相应的改善,具体思路如下:
我们使用SuperPoint+Autoencoder+SuperGlue作为我们的关键点匹配pipeline。其中SuperPoint用于提取关键点和对应描述子,Autoencoder用于特征压缩,SuperGlue用于关键点匹配,最后通过DEGENSAC进行离群点过滤。同时我们优化了SuperGlue的训练过程和损失函数,提升了模型在比赛数据集下的匹配精度。
图3、SS-Fusing算法流程图
我们针对输入图片进行随机变换增加了提取到的关键点对尺度变换的鲁棒性,同时提出了针对描述子的特征融合模块,以提升描述子的表达能力和尺度鲁棒性。同时我们还对比了我们的特征融合和平均特征融合的效果,其中横坐标为描述子的cos相似度,纵坐标为二者的分布差异,可见我们的方法在高相似度区域下的占比明显高于平均特征,而在低相似度区域下的占比明显低于平均特征,验证了我们方法的有效性。
图4、特征融合模块
图5、加权特征和平均特征相似度分布差异图
我们提出了前背景分割和coarse-to-fine的匹配结构,进一步提升关键点匹配的有效性。其中前背景分割可以有效过滤掉与匹配无关的背景部分。Coarse-to-fine的匹配结构可以提升拍摄尺度差异过大导致的匹配率过低的问题。
图6、前背景分离示意图
图7、coarse-to-fine匹配前后示意图
视觉图像匹配作为基础的计算机视觉能力,在其基础上可拓展众多的下游任务。如在图像检索中,可以通过image matching来检索到和Database中相似的图片,如图8所示。在SFM(Structure from motion)中,可以通过关键点匹配来获取摄像头外参并结合内参进行 估计并重建出拍摄物体(如图9所示)。在图像跟踪与配准中,通过前后帧的匹配可以捕捉视频的运动轨迹,并针对目标物体进行视频跟踪与图像配准。
图8、图像检索
图9、三维重建
作为腾讯旗下顶尖的人工智能实验室,优图实验室聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,始终坚持基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业 融合,挖掘客户痛点,切实为行业降本增效。
未来,腾讯优图实验室也将继续深耕CV技术,并将持续探索更多的应用场景和应用空间,让更多的用户享受到科技带来的红利。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )