要約
屋内深度センサーでキャプチャされた生の深度画像には、通常、透明な物体を認識できないことや距離範囲が限られているなどの固有の制限により、広範囲の欠落した深度値が含まれます。
欠損値を含む不完全な深度マップは、下流の視覚タスクの多くに負担をかけており、この問題を軽減するために提案される深度補完方法の数が増加しています。
既存のほとんどの方法は、まばらで均一にサンプリングされた深度マップから正確な高密度深度マップを生成できますが、屋内環境で撮影された画像で一般的かつ重要な、欠落している深度値の大きな連続領域を補完するのには適していません。
これらの課題を克服するために、RDFC-GAN という名前の新しい 2 分岐エンドツーエンド融合ネットワークを設計します。このネットワークは、RGB および不完全な深度画像のペアを入力として受け取り、高密度で完成した深度マップを予測します。
最初のブランチは、マンハッタン ワールドの仮定に従い、RGB-D 情報からの法線マップをガイダンスとして利用することにより、エンコーダー/デコーダー構造を採用し、生の深度マップから局所的な密な深度値を回帰します。
もう 1 つのブランチでは、RGB 画像をきめの細かいテクスチャ深度マップに転送するための RGB 深度融合 CycleGAN を提案します。
W-AdaIN という名前の適応融合モジュールを採用して 2 つのブランチ全体に特徴を伝播し、信頼性融合ヘッドを追加してブランチの 2 つの出力を融合して最終的な深度マップを作成します。
NYU-Depth V2 と SUN RGB-D に関する広範な実験により、私たちが提案した方法が、トレーニングで提案した疑似深度マップの助けを借りて、特に屋内環境のより現実的な設定において、深度補完パフォーマンスが明らかに向上することが実証されました。
要約(オリジナル)
The raw depth image captured by indoor depth sensors usually has an extensive range of missing depth values due to inherent limitations such as the inability to perceive transparent objects and the limited distance range. The incomplete depth map with missing values burdens many downstream vision tasks, and a rising number of depth completion methods have been proposed to alleviate this issue. While most existing methods can generate accurate dense depth maps from sparse and uniformly sampled depth maps, they are not suitable for complementing large contiguous regions of missing depth values, which is common and critical in images captured in indoor environments. To overcome these challenges, we design a novel two-branch end-to-end fusion network named RDFC-GAN, which takes a pair of RGB and incomplete depth images as input to predict a dense and completed depth map. The first branch employs an encoder-decoder structure, by adhering to the Manhattan world assumption and utilizing normal maps from RGB-D information as guidance, to regress the local dense depth values from the raw depth map. In the other branch, we propose an RGB-depth fusion CycleGAN to transfer the RGB image to the fine-grained textured depth map. We adopt adaptive fusion modules named W-AdaIN to propagate the features across the two branches, and we append a confidence fusion head to fuse the two outputs of the branches for the final depth map. Extensive experiments on NYU-Depth V2 and SUN RGB-D demonstrate that our proposed method clearly improves the depth completion performance, especially in a more realistic setting of indoor environments, with the help of our proposed pseudo depth maps in training.
arxiv情報
著者 | Haowen Wang,Zhengping Che,Mingyuan Wang,Zhiyuan Xu,Xiuquan Qiao,Mengshi Qi,Feifei Feng,Jian Tang |
発行日 | 2023-06-06 11:03:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google