腾讯优图: 多模态融合是计算机视觉技术发展的重要趋势

12月19日-20日,由腾讯发起的2020 Techo Park开发者大会于北京顺利召开。作为面向全球开发者和技术爱好者的年度盛会,本次开发者大会针对行业开发者、ISV、科研机构、高校师生、创业公司、开源社区工程师等设置了很多的亮点内容和创新活动,来自国内外200多位技术大咖为大家带来一场年度的技术嘉年华。腾讯优图实验室总监黄小明出席大会并在AI分论坛上做了主题为《视觉AI技术的探索与实践:“新基建时代”下的生产力》致辞分享。

腾讯优图: 多模态融合是计算机视觉技术发展的重要趋势

腾讯优图实验室总监 黄小明

计算机视觉是机器认知世界的基础,也是最重要的人工智能技术之一。黄小明认为,计算机视觉将机器学习应用于视觉领域,构成人工智能的感知基础,加速人工智能在相关行业应用落地。

黄小明表示,面对不同场景需求,计算视觉的准确度正在不断提高。随着视觉技术精度不断提升,已经广泛应用在零售及金融民生等领域。制造业中的质量检查和控制,成为工业视觉的重要应用场景。中国是世界最大的制造业国家,它的生产力价值正在显现。

“在未来的计算机视觉研究中,多模态融合、多技术融通是一个重要的趋势。”黄小明表示,人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。

以下为黄小明演讲实录:

各位嘉宾:

我是腾讯优图实验室的黄小明, 非常荣幸在这个场合有机会跟各位同仁就一些技术问题进行探讨。

视觉AI技术是我研究的主要领域之一。近年来, 学习技术、GPU算力以及海量数据,作为AI技术发展的三大催化剂,加速了视觉技术在各行各业应用落地,助力产业互联网升级。计算机视觉的广阔应用前景,为我们展开了前所未有的壮丽图景。

目前,计算机视觉已经在工业视觉、OCR以及内容理解等领域获得重大突破,随着计算机视觉技术精度和成熟度的提高,正不断渗透到娱乐、医疗、零售行业等更多重点应用场景,推动技术变革和用户体验提升。例如,在泛娱乐领域,以计算机视觉为基础的人脸检测技术、人脸关键点定位技术、人脸融合以及人像分割技术等AI视觉技术,通过对泛娱乐场景各类基础人脸研究和挖掘整合,打造出多项泛娱乐人像特效应用,为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。

疫情期间,由优图提供视觉AI技术支持的腾讯“防疫健康码”,让民众通过申请涵盖自身健康信息的二维码,获得电子出行凭证,方便民众在疫情期间出入公共场所,也利于为政府部门统一管理。在各地复工复产的高峰期,各地健康码互通,民众出入不同省市都只用进行一次健康状况的认证,加快复工复产进度,也使国家在疫情期间对信息的统一管理更加精准有效。腾讯“防疫健康码”是服务用户最多、增长速度最快的健康码。截至目前,腾讯防疫健康码服务9亿用户、累计亮码150亿人次,累计访问量500亿次。背后都有我们的视觉AI在发挥作用。

在未来的计算机视觉研究中,多模态融合、多技术融通是一个重要的趋势。人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。

当然我们的工作还面临着诸多挑战。目前还无法建立一个通用的“视觉机器”,无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高,也没有达到产业化应用的理想状态。要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能。

计算机视觉的技术前景是令人兴奋的,还有很多未抵达的神奇地域等着我们去探索。阿兰·图灵曾说过:“这不过是将来之事的前奏,也是将来之事的影子。”从人类开辟出人工智能领域,到今天真正的应用落地,时光只不过是历史一瞬。未来,让我们仰望星空,脚踏实地,共同创造中国计算机视觉的新辉煌,期待各位的分享。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map