Holopix50k发布: 最多最丰富的双目数据集大幅提升多个相关任务性能?

随着配备双目摄像头的智能手机逐步增加,利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。

为了解决这一问题,来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k,这一数据集从大小和多样性上都超过了现有的公开数据集,在立体图像超分辨、单目 估计等任务上都取得了非常大的性能提升。

立体视觉的及其广泛应用

近年来随着硬件的发展,立体视觉已经在智能手机中普及。通过双目摄像头不同视角的拍摄下能够得到场景的立体信息,对于3D照片、虚拟现实和交互等应用有着重要的作用。此外移动机器人和自动驾驶的迅速发展,也为立体视觉算法提出了更高的要求,需要在更为复杂的场景、多样的真实环境中有效工作。

立体视觉的主要任务包括立体视差估计、基于自监督或者无监督方法对单张图像输入进行单目 估计和基于立体图像提升分辨率的图像超分辨等任务。这些任务都需要高质量的大规模双目/ 数据集来进行训练。

目前人工智能领域的 学习算法在多个领域取得重大的进展,但大规模的、多样性的数据需求却成为了立体视觉领域开发出优秀算法的阻碍!大规模的立体数据集是提升算法性能的关键之一。

目前立体视觉领域的数据集主要包括像KITTI,Middlebury、NYU Indoor等较为流行的真实数据集、还包括Make3D、ETH3D、CMLA和Cityscape等针对特定领域的数据集,近年来还出现了像Flickr1024和WSVD等场景更为丰富的数据集,但这些数据集在数量和相关指标上并没有良好的结果。

此外为了克服真实世界中数据收集的困难,研究人员还提出了利用图形学渲染的方法来渲染获取大量的双目数据,主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等数据,但合成数据应用于真实场景会受到域迁移问题的影响,同时还需要很大的努力来构建丰富的数字化场景。而Holopix50k的目的就在于综合解决这些存在的问题。

Holopix50k

这一数据集主要从社交媒体平台上收集而来,Holopix是目前最主流的3D摄影共享平台,包含了大量的多视角立体视觉照片并可以利用视差效应来显示出三维效果。这里汇集了世界上最为丰富的立体视觉社交媒体图像,用户只需要上传两个或多个视角,就可以在光场显示设备上获取多视角图像,也可以在普通设备上获取基于移动的模拟立体图像。

在Holopix平台上RED Hydrogen One拍摄的图像最多,作为第一款集成光场性能的消费级手机,它可以提供四个视角的多角度显示。它拥有两个水平排列的相机,同时对图像进行了校正并收敛于立体图像的平均视差。与Flickr1024不同的是,这种方法并没有对图像进行剪切来使得图像片收敛于无穷远处的立体视差。

在最开始的阶段,研究人员首先从Holopix上收集了约70k适合于作为数据集的立体视觉图像对,针对左右图像分辨率不匹配的情况会将两张图像的分辨率统一为其中较小的分辨率,利用高斯平滑和双三次插值来将分辨率较高的图像进行下采样。

123下一页>

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2020-04-30
Holopix50k发布: 最多最丰富的双目数据集大幅提升多个相关任务性能?
随着配备双目摄像头的智能手机逐步增加,利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。

长按扫码 阅读全文

Baidu
map