Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN

要約

単眼の奥行き推定は、コンピューター ビジョンにおける継続的な課題です。
Transformer モデルの最近の進歩により、この分野では従来の CNN に比べて顕著な利点が実証されました。
ただし、これらのモデルが 2D 画像内のさまざまな領域にどのように優先順位を付けるか、およびこれらの領域が深度推定パフォーマンスにどのように影響するかを理解するには、まだギャップがあります。
Transformer と CNN の違いを調べるために、スパース ピクセル アプローチを採用して、2 つの違いを対照的に分析します。
私たちの調査結果は、トランスフォーマーはグローバル コンテキストと複雑なテクスチャの処理には優れているものの、深度勾配の連続性の維持においては CNN に遅れをとっていることを示唆しています。
単眼深度推定における Transformer モデルのパフォーマンスをさらに強化するために、高次微分、特徴融合、および再キャリブレーションを通じて深度推定を改良する深度勾配改良 (DGR) モジュールを提案します。
さらに、深度マップを空間確率分布として扱う最適輸送理論を活用し、最適輸送距離を損失関数として採用してモデルを最適化します。
実験結果は、プラグアンドプレイの深度勾配調整 (DGR) モジュールと提案された損失関数を統合したモデルが、複雑さや計算コストを増加させることなくパフォーマンスを向上させることを示しています。
この研究は、深度推定におけるトランスフォーマーと CNN の違いについて新たな洞察を提供するだけでなく、新しい深度推定方法論への道も開きます。

要約(オリジナル)

Monocular depth estimation is an ongoing challenge in computer vision. Recent progress with Transformer models has demonstrated notable advantages over conventional CNNs in this area. However, there’s still a gap in understanding how these models prioritize different regions in 2D images and how these regions affect depth estimation performance. To explore the differences between Transformers and CNNs, we employ a sparse pixel approach to contrastively analyze the distinctions between the two. Our findings suggest that while Transformers excel in handling global context and intricate textures, they lag behind CNNs in preserving depth gradient continuity. To further enhance the performance of Transformer models in monocular depth estimation, we propose the Depth Gradient Refinement (DGR) module that refines depth estimation through high-order differentiation, feature fusion, and recalibration. Additionally, we leverage optimal transport theory, treating depth maps as spatial probability distributions, and employ the optimal transport distance as a loss function to optimize our model. Experimental results demonstrate that models integrated with the plug-and-play Depth Gradient Refinement (DGR) module and the proposed loss function enhance performance without increasing complexity and computational costs. This research not only offers fresh insights into the distinctions between Transformers and CNNs in depth estimation but also paves the way for novel depth estimation methodologies.

arxiv情報

著者 Jiawei Yao,Tong Wu,Xiaofeng Zhang
発行日 2023-08-16 12:46:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク