要約
本論文では、高精度で正確な視差を持つ室内シーンをフレーミングした新しい高解像度ステレオデータセットを紹介する。本データセットの特徴は、最新のステレオネットワークで失敗する主な原因である、鏡面や透明な面がいくつか存在することである。我々の収集パイプラインは、サブピクセル精度で簡単かつ正確にラベリングすることができる、新しい深部時空間ステレオフレームワークを活用している。我々は、64の異なるシーンで収集された合計419のサンプルを公開し、高密度のグランドトゥルース視差でアノテーションされています。各サンプルには、高解像度ペア(12Mpx)、アンバランスペア(左:12Mpx、右:1.1Mpx)が含まれています。さらに、手動で注釈された素材セグメンテーションマスクと15Kの未ラベルサンプルを提供する。我々は、我々のデータセットに基づいて、最先端のディープネットワークを評価し、ステレオにおける未解決の課題に対処するための限界を強調し、将来の研究のためのヒントを描く。
要約(オリジナル)
We present a novel high-resolution and challenging stereo dataset framing indoor scenes annotated with dense and accurate ground-truth disparities. Peculiar to our dataset is the presence of several specular and transparent surfaces, i.e. the main causes of failures for state-of-the-art stereo networks. Our acquisition pipeline leverages a novel deep space-time stereo framework which allows for easy and accurate labeling with sub-pixel precision. We release a total of 419 samples collected in 64 different scenes and annotated with dense ground-truth disparities. Each sample include a high-resolution pair (12 Mpx) as well as an unbalanced pair (Left: 12 Mpx, Right: 1.1 Mpx). Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. We evaluate state-of-the-art deep networks based on our dataset, highlighting their limitations in addressing the open challenges in stereo and drawing hints for future research.
arxiv情報
著者 | Pierluigi Zama Ramirez,Fabio Tosi,Matteo Poggi,Samuele Salti,Stefano Mattoccia,Luigi Di Stefano |
発行日 | 2022-06-09 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |