ADU-Depth: Attention-based Distillation with Uncertainty Modeling for Depth Estimation

要約

単眼の奥行き推定は、その固有のあいまいさと不適切な性質により困難を伴いますが、多くのアプリケーションにとって非常に重要です。
最近の研究では、単一の RGB 画像から限られた空間幾何学的手がかりを持つ特徴を抽出するためにますます複雑なネットワークを設計することで限られた精度を達成していますが、私たちは、左右の画像ペアを入力として活用する教師ネットワークを訓練し、学習した 3D を転送することによって空間手がかりを導入するつもりです。
幾何学を意識した知識を単眼的な学生ネットワークに提供します。
具体的には、ADU-Depth という名前の新しい知識蒸留フレームワークを紹介します。これは、十分に訓練された教師ネットワークを活用して生徒ネットワークの学習をガイドし、追加の空間シーン情報の助けを借りて正確な深度推定を高めることを目的としています。
ドメイン適応を可能にし、教師から生徒への効果的かつスムーズな知識伝達を保証するために、トレーニング段階で注意に適応した特徴抽出と焦点深度に適応した応答抽出の両方を適用します。
さらに、深度推定の不確実性を明示的にモデル化し、特徴空間と結果空間の両方で蒸留をガイドし、単眼観察から 3D 認識の知識をより適切に生成し、予測が難しい画像領域の学習を強化します。
実際の深度推定データセット KITTI と DrivingStereo に関する広範な実験により、提案手法の有効性が実証され、挑戦的な KITTI オンライン ベンチマークで 1 位にランクされました。

要約(オリジナル)

Monocular depth estimation is challenging due to its inherent ambiguity and ill-posed nature, yet it is quite important to many applications. While recent works achieve limited accuracy by designing increasingly complicated networks to extract features with limited spatial geometric cues from a single RGB image, we intend to introduce spatial cues by training a teacher network that leverages left-right image pairs as inputs and transferring the learned 3D geometry-aware knowledge to the monocular student network. Specifically, we present a novel knowledge distillation framework, named ADU-Depth, with the goal of leveraging the well-trained teacher network to guide the learning of the student network, thus boosting the precise depth estimation with the help of extra spatial scene information. To enable domain adaptation and ensure effective and smooth knowledge transfer from teacher to student, we apply both attention-adapted feature distillation and focal-depth-adapted response distillation in the training stage. In addition, we explicitly model the uncertainty of depth estimation to guide distillation in both feature space and result space to better produce 3D-aware knowledge from monocular observations and thus enhance the learning for hard-to-predict image regions. Our extensive experiments on the real depth estimation datasets KITTI and DrivingStereo demonstrate the effectiveness of the proposed method, which ranked 1st on the challenging KITTI online benchmark.

arxiv情報

著者 Zizhang Wu,Zhuozheng Li,Zhi-Gang Fan,Yunzhe Wu,Xiaoquan Wang,Rui Tang,Jian Pu
発行日 2023-09-26 08:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク