Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

要約

360 度画像の奥行きを正確に推定することは、仮想現実、自律ナビゲーション、没入型メディア アプリケーションにとって非常に重要です。
透視図画像用に設計された既存の深度推定方法は、カメラの投影や歪みが異なるために 360 度画像に適用すると失敗します。一方、360 度方法は、ラベル付きデータ ペアがないためパフォーマンスが劣ります。
ラベルなしの360度データを有効活用する新しい深度推定フレームワークを提案します。
私たちのアプローチでは、最先端の透視奥行き推定モデルを教師モデルとして使用し、6 面立方体投影技術を通じて疑似ラベルを生成し、360 度画像の奥行きの効率的なラベル付けを可能にします。
この方法は、大規模なデータセットの可用性の向上を利用します。
私たちのアプローチには、無効な領域に対するオフラインのマスク生成と、オンラインの半教師付き共同トレーニング体制という 2 つの主要な段階が含まれています。
Matterport3D や Stanford2D3D などのベンチマーク データセットでアプローチをテストしたところ、特にゼロショット シナリオで深度推定の精度が大幅に向上したことがわかりました。
私たちが提案するトレーニング パイプラインは、あらゆる 360 度の単眼深度推定器を強化し、さまざまなカメラ投影やデータ タイプにわたる効果的な知識伝達を実証します。
結果についてはプロジェクト ページを参照してください: https://albert100121.github.io/Depth-Anywhere/

要約(オリジナル)

Accurately estimating depth in 360-degree imagery is crucial for virtual reality, autonomous navigation, and immersive media applications. Existing depth estimation methods designed for perspective-view imagery fail when applied to 360-degree images due to different camera projections and distortions, whereas 360-degree methods perform inferior due to the lack of labeled data pairs. We propose a new depth estimation framework that utilizes unlabeled 360-degree data effectively. Our approach uses state-of-the-art perspective depth estimation models as teacher models to generate pseudo labels through a six-face cube projection technique, enabling efficient labeling of depth in 360-degree images. This method leverages the increasing availability of large datasets. Our approach includes two main stages: offline mask generation for invalid regions and an online semi-supervised joint training regime. We tested our approach on benchmark datasets such as Matterport3D and Stanford2D3D, showing significant improvements in depth estimation accuracy, particularly in zero-shot scenarios. Our proposed training pipeline can enhance any 360 monocular depth estimator and demonstrates effective knowledge transfer across different camera projections and data types. See our project page for results: https://albert100121.github.io/Depth-Anywhere/

arxiv情報

著者 Ning-Hsu Wang,Yu-Lun Liu
発行日 2024-10-30 16:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク