要約
単眼深度推定(MDE)は、単一のRGB画像からシーンの深さを予測することを目的としており、3Dシーンの理解に重要な役割を果たします。
ゼロショットMDEレバレッジの最近の進歩正規化された深さ表現と蒸留ベースの学習により、多様なシーン全体の一般化を改善しました。
ただし、グローバルな正規化に依存して蒸留のための現在の深さ正規化方法は、騒々しい擬似ラベルを増幅し、蒸留の有効性を低下させる可能性があります。
このホワイトペーパーでは、擬似ラベル蒸留に対するさまざまな深度正規化戦略の影響を体系的に分析します。
調査結果に基づいて、クロスコンテキスト蒸留を提案します。この蒸留は、グローバルおよびローカルの深さの手がかりを統合して、擬似ラベルの品質を向上させます。
さらに、さまざまな深度推定モデルの補完的な強度を活用して、より堅牢で正確な深度予測につながるマルチティーチャー蒸留フレームワークを導入します。
ベンチマークデータセットでの広範な実験は、私たちのアプローチが、定量的および定性的に最新の方法を大幅に上回ることを示しています。
要約(オリジナル)
Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.
arxiv情報
| 著者 | Xiankang He,Dongyan Guo,Hongji Li,Ruibo Li,Ying Cui,Chi Zhang | 
| 発行日 | 2025-02-26 15:10:05+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
