腾讯优图实验室荣获CVPR 2023视觉异常检测挑战赛冠军,助力工业AI高质量发展

近日,腾讯优图实验室在CVPR 2023(IEEE国际计算机视觉与模式识别会议)中斩获了视觉异常检测(Visual Anomaly and Novelty Detection,VAND)挑战赛的冠军,这一荣誉标志着腾讯优图在工业人工智能领域的技术实力和创新能力得到了权威机构的认可。

无监督图像异常检测是计算机视觉领域的重要研究方向,其目标是通过仅使用正常图像进行模型训练,在测试时能够准确地区分正常和异常图像。在工业外观质检、产品零件安装检测和智能安全视频等领域,无监督异常检测技术具有巨大的研究意义和应用价值。工业领域对于视觉异常检测的需求日益增长。在工业生产过程中,异常情况可能导致质量问题、安全隐患甚至设备故障。传统的异常检测方法往往需要人工参与,效率低下且易受主观因素影响。而基于人工智能的视觉异常检测技术能够通过高效的自动化方式,快速识别和定位异常情况,从而提高生产效率和产品质量。

技术解析:

腾讯优图实验室与浙江大学合作,在Zero-shot异常检测赛道中提出了创新的解决方案。通过结合文本提示和图像特征对比的方法,该方案在测试集上取得了优异的成绩,综合F1-max指标达到0.4589,超越了其他参赛队伍。这意味着提出的模型能够在未见过异常样本的情况下,准确地识别和分割异常图像。以下可分为三点;

(一)异常分类

基于WinCLIP[3]异常分类框架,我们提出了一种文本提示集成策略,在不使用复杂的多尺度窗口策略的基础上显著提升了Baseline的异常分类精度。具体地,该集成策略包含template-level和state-level两部分:

1) 对于前者,我们从CLIP Surgery[4]中选定的85个模板提示中删掉了一些不适合AD任务的模板,如“a photo of the weird [obj.]“,最终筛选35个模板提示。

2) 对于后者,我们采用通用文本来描述正常/异常对象,如“flawless,damaged“等,而没有提供过于详细的描述以保证方法的普适性,如”chip around edge and corner“。最终使用7个正常提示和5个异常提示。

模板和状态提示与样本类别名称结合后,使用CLIP文本编码器提取文本特征,并对正常和异常特征分别求平均值。最终,将正常与异常特征各自的平均值与图像特征进行对比,经过softmax后得到异常类别概率作为分类得分,见下图中蓝色Zero-shot Anomaly Score流程。

自研Zero-shot/Few-shot异常检测统一框架

(二)异常分割

类比图像级别的异常分类方法到异常分割,一个自然而然的想法是将Backbone提取到的不同层级特征与文本特征进行相似度度量。然而,CLIP模型是基于分类的方案进行设计的,即除了用于分类的抽象图像特征外,没有将其它图像特征映射到统一的图像/文本空间。因此我们提出了一个简单但有效的方案来解决这个问题:使用额外的线性层将不同层级的图像特征映射到图像/文本联合嵌入空间中,见上图中蓝色Zero-shot Anomaly Map流程。具体地,不同层级的特征分别经由一个线性层进行联合嵌入特征空间变换,将得到的变换后的特征与文本特征进行对比,得到不同层级的异常图。最后,将不同层级的异常图简单加和求得最终结果,具体实现可参考技术报告和源代码。官方的测试数据集上提出的方法在综合F1-max指标上达到0.4589,相较于其他众多参赛队伍具有明显的优势,获得了该赛道冠军,证明了所提方法的优越性和泛化性。

(三) Few-shot扩展

得益于简单的结构,我们结合基于memory的PatchCore[5]思路将方法扩展到Few-shot赛道,在不进行任何调参的基础上获得了积极竞争的结果,获得了该赛道荣誉提名奖,我们会在后续工作中进一步探究该方法在Few-shot上的应用潜力与价值。

该解决方案不仅在Zero-shot异常检测赛道表现出色,腾讯优图实验室还将其扩展到Few-shot异常检测赛道,并获得了该赛道的荣誉提名奖。在Few-shot异常检测赛道中,该方案在异常检测准确率方面表现优异,展现出出色的适应能力和泛化能力。

腾讯优图实验室在工业人工智能领域的相关成就,为工业质检、产品安全和智能视频等领域的发展提供了新的可能性。未来,腾讯优图将继续致力于推动计算机视觉和人工智能技术的创新,为工业应用带来更多突破和进步,为各行业提供更智能、高效的解决方案。

关于CVPR

CVPR是由IEEE主办的一年一度的全球学术型顶级会议,全称“IEEE国际计算机视觉与模式识别会议”(IEEE Conference on Computer Vision and Pattern Recognition),今年将于6月18日到22日在温哥华会议中心举办。

关于腾讯优图实验室

腾讯优图实验室成立于2012年,是腾讯公司旗下顶级人工智能实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展技术研发和行业落地,在推动产业数字化升级过程中,优图始终专注基础研究、产业落地两条腿走路的发展战略,与腾讯云与智慧产业 融合,挖掘客户痛点,切实为行业降本增效。与此同时,优图关注科技的社会价值,践行科技向善理念,致力于通过视觉AI技术解决社会问题,帮助弱势群体。

腾讯优图实验室的研究成果已被CVPR 2023 VAND研讨会收录。将于6月18日的11:50 AM - 12:00 PM进行相关Talk和QA可以点击阅读原文了解详情。

阅文原文链接:(https://sites.google.com/view/vand-cvpr23/schedule )。

参考文献

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision."International conference on machine learning. PMLR, 2021.

[2] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale."arXiv preprint arXiv:2010.11929(2020).

[3] Jeong, Jongheon, et al. "Winclip: Zero-/few-shot anomaly classification and segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

[4] Li, Yi, et al. "Clip surgery for better explainability with enhancement in open-vocabulary tasks."arXiv preprint arXiv:2304.05653(2023).

[5] Roth, Karsten, et al. "Towards total recall in industrial anomaly detection."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map