Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are Better Than One

要約

深さの推定は、コンピューター ビジョン コミュニティで幅広い注目を集めています。
ただし、1 つの RGB 画像だけを使用して正確な深度マップを復元することは依然として非常に困難です。
ネットワークアーキテクチャや損失関数などの違いにより、既存の手法がさまざまなケースで失敗する傾向があるという現象が観察されています。
この研究では、この現象を調査し、複数の弱い深度予測器の長所を統合して、3D 再構築などの多くの実世界のアプリケーションにとって重要な包括的で正確な深度予測器を構築することを提案します。
具体的には、さまざまな Transformer ベースおよび畳み込みニューラル ネットワーク (CNN) ベースのアーキテクチャを利用して、複数のベース (弱い) 深度予測器を構築します。
Transformer は長距離相関を確立しますが、CNN は空間誘導バイアスにより Transformer によって無視されたローカル情報を保存します。
したがって、Transformer と CNN の結合は、包括的な深度予測を達成するために不可欠な相補的な深度推定値の生成に貢献します。
次に、複数の弱い予測から学習し、それらを適応的に融合して強い深度推定を行うようにミキサーを設計します。
結果として得られるモデルを、Transformer 支援深度アンサンブル (TEDepth) と呼びます。
標準的な NYU-Depth-v2 および KITTI データセットを使用して、ニューラル アンサンブルが深度推定にどのような影響を与えるかを徹底的に調査し、TEDepth が以前の最先端のアプローチよりも優れた結果を達成することを実証しました。
カメラ全体での一般化可能性を検証するために、NYU-Depth-v2 でトレーニングされたモデルを微調整せずに SUN RGB-D データセットに直接適用しました。優れた結果は、その強力な一般化可能性を強調しています。

要約(オリジナル)

Depth estimation attracts widespread attention in the computer vision community. However, it is still quite difficult to recover an accurate depth map using only one RGB image. We observe a phenomenon that existing methods tend to fail in different cases, caused by differences in network architecture, loss function and so on. In this work, we investigate into the phenomenon and propose to integrate the strengths of multiple weak depth predictor to build a comprehensive and accurate depth predictor, which is critical for many real-world applications, e.g., 3D reconstruction. Specifically, we construct multiple base (weak) depth predictors by utilizing different Transformer-based and convolutional neural network (CNN)-based architectures. Transformer establishes long-range correlation while CNN preserves local information ignored by Transformer due to the spatial inductive bias. Therefore, the coupling of Transformer and CNN contributes to the generation of complementary depth estimates, which are essential to achieve a comprehensive depth predictor. Then, we design mixers to learn from multiple weak predictions and adaptively fuse them into a strong depth estimate. The resultant model, which we refer to as Transformer-assisted depth ensembles (TEDepth). On the standard NYU-Depth-v2 and KITTI datasets, we thoroughly explore how the neural ensembles affect the depth estimation and demonstrate that our TEDepth achieves better results than previous state-of-the-art approaches. To validate the generalizability across cameras, we directly apply the models trained on NYU-Depth-v2 to the SUN RGB-D dataset without any fine-tuning, and the superior results emphasize its strong generalizability.

arxiv情報

著者 Shuwei Shao,Ran Li,Zhongcai Pei,Zhong Liu,Weihai Chen,Wentao Zhu,Xingming Wu,Baochang Zhang
発行日 2023-09-25 14:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク