要約
現在、画像から深度を推定すると、ドメイン内の精度と一般化の両方の点で優れた結果が得られます。
ただし、この分野で未解決のまま残っている 2 つの主な課題を特定しています。それは、非ランバート マテリアルの処理と、高解像度画像の効果的な処理です。
意図的に、高解像度で正確かつ高密度のグラウンド トゥルース ラベルを含む新しいデータセットを提案し、いくつかの鏡面および透明な表面を含むシーンを特徴とします。
当社の買収パイプラインは、新しいディープ時空間ステレオ フレームワークを活用して、サブピクセル精度で簡単かつ正確なラベリングを可能にします。
データセットは、85 の異なるシーンで収集された 606 のサンプルで構成されています。各サンプルには、高解像度ペア (12 Mpx) とアンバランス ステレオ ペア (左: 12 Mpx、右: 1.1 Mpx) の両方が含まれています。
さらに、手動で注釈を付けたマテリアル セグメンテーション マスクと 15,000 のラベルのないサンプルを提供します。
データセットをトレーニング セットと 2 つのテスト セットに分割します。後者は、この分野における未解決の課題と将来の研究の方向性を強調するために、それぞれステレオおよび単眼深度推定ネットワークの評価に専念します。
要約(オリジナル)
Estimating depth from images nowadays yields outstanding results, both in terms of in-domain accuracy and generalization. However, we identify two main challenges that remain open in this field: dealing with non-Lambertian materials and effectively processing high-resolution images. Purposely, we propose a novel dataset that includes accurate and dense ground-truth labels at high resolution, featuring scenes containing several specular and transparent surfaces. Our acquisition pipeline leverages a novel deep space-time stereo framework, enabling easy and accurate labeling with sub-pixel precision. The dataset is composed of 606 samples collected in 85 different scenes, each sample includes both a high-resolution pair (12 Mpx) as well as an unbalanced stereo pair (Left: 12 Mpx, Right: 1.1 Mpx). Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. We divide the dataset into a training set, and two testing sets, the latter devoted to the evaluation of stereo and monocular depth estimation networks respectively to highlight the open challenges and future research directions in this field.
arxiv情報
著者 | Pierluigi Zama Ramirez,Alex Costanzino,Fabio Tosi,Matteo Poggi,Samuele Salti,Stefano Mattoccia,Luigi Di Stefano |
発行日 | 2023-01-19 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google