要約
相互利益クロスドメインの調査は、正確な自己教師付き深度推定に向けた大きな可能性を示しています。
この作業では、深さと意味情報の間の機能融合を再検討し、幾何学的認識表現強化のための効率的な局所適応注意方法を提案します。
グローバルな接続を構築したり、特徴空間全体で注意を変形させたりする代わりに、学習可能な関心領域内で空間的相互作用を制限しました。
特に、セマンティック情報からの幾何学的手がかりを活用して、局所的な適応境界ボックスを学習し、教師なしの特徴集約を導きます。
局所領域は、最も無関係な参照ポイントを注意空間から排除し、より選択的な特徴学習とより高速な収束をもたらします。
パラダイムをマルチヘッドおよび階層的な方法に自然に拡張して、さまざまなセマンティック レベルでの情報の蒸留を可能にし、きめの細かい深度推定のための特徴識別能力を向上させます。
KITTI データセットでの広範な実験は、提案された方法が自己教師あり単眼深度推定タスクの新しい最先端技術を確立し、以前の Transformer バリアントに対するアプローチの有効性を実証することを示しています。
要約(オリジナル)
The exploration of mutual-benefit cross-domains has shown great potential toward accurate self-supervised depth estimation. In this work, we revisit feature fusion between depth and semantic information and propose an efficient local adaptive attention method for geometric aware representation enhancement. Instead of building global connections or deforming attention across the feature space without restraint, we bound the spatial interaction within a learnable region of interest. In particular, we leverage geometric cues from semantic information to learn local adaptive bounding boxes to guide unsupervised feature aggregation. The local areas preclude most irrelevant reference points from attention space, yielding more selective feature learning and faster convergence. We naturally extend the paradigm into a multi-head and hierarchic way to enable the information distillation in different semantic levels and improve the feature discriminative ability for fine-grained depth estimation. Extensive experiments on the KITTI dataset show that our proposed method establishes a new state-of-the-art in self-supervised monocular depth estimation task, demonstrating the effectiveness of our approach over former Transformer variants.
arxiv情報
著者 | Daitao Xing,Jinglin Shen,Chiuman Ho,Anthony Tzes |
発行日 | 2022-12-16 13:33:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google