Depth-Relative Self Attention for Monocular Depth Estimation

要約

タイトル:Depth-Relative Self Attention for Monocular Depth Estimation
要約:
– 単眼の深さ推定は、単一のRGB画像で完全な深さの手掛かりが不十分であり、非常に困難である。
– 深層ニューラルネットワークは、RGB情報から抽出されたサイズ、影、テクスチャなどのさまざまな視覚的手がかりに依存しているが、そのような手がかりが過剰に利用されると、総合的なビューを考慮せずにRGB情報に偏る可能性がある。
– 相対的な深さを自己注意にガイドとして使用するRED-Tという新しい深度推定モデルを提案する。
– 具体的には、モデルは近接深度のピクセルに高い注意重みを割り当て、遠い深度のピクセルに低い注意重みを割り当てる。
– この結果、同様の深度の特徴はお互いにより類似し、誤用された視覚的手がかりにより弱くなる可能性がある。
– 提案されたモデルが、単眼深度推定ベンチマークで競争力のある結果を出し、RGB情報に偏りが少ないことを示す。
– さらに、トレーニング中に観測可能な深度範囲を制限し、モデルの未知の深度に対する頑健性を評価する新しい単眼深度推定ベンチマークを提案する。

要約(オリジナル)

Monocular depth estimation is very challenging because clues to the exact depth are incomplete in a single RGB image. To overcome the limitation, deep neural networks rely on various visual hints such as size, shade, and texture extracted from RGB information. However, we observe that if such hints are overly exploited, the network can be biased on RGB information without considering the comprehensive view. We propose a novel depth estimation model named RElative Depth Transformer (RED-T) that uses relative depth as guidance in self-attention. Specifically, the model assigns high attention weights to pixels of close depth and low attention weights to pixels of distant depth. As a result, the features of similar depth can become more likely to each other and thus less prone to misused visual hints. We show that the proposed model achieves competitive results in monocular depth estimation benchmarks and is less biased to RGB information. In addition, we propose a novel monocular depth estimation benchmark that limits the observable depth range during training in order to evaluate the robustness of the model for unseen depths.

arxiv情報

著者 Kyuhong Shim,Jiyoung Kim,Gusang Lee,Byonghyo Shim
発行日 2023-04-25 14:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク