ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient Self-Supervised Monocular Depth Estimation

要約

相互利益のあるクロスドメインの探索は、正確な自己教師付き深度推定に向けた大きな可能性を示している。本研究では、深度情報と意味情報の間の特徴融合を再検討し、幾何学的認識表現強化のための効率的な局所適応的注意法を提案する。グローバルな接続を構築したり、無制限に特徴空間を横切って注意を変形させるのではなく、学習可能な関心領域内で空間的な相互作用を束縛するのである。特に、意味情報からの幾何学的な手がかりを活用して、教師なし特徴集約を導くための局所適応的なバウンディングボックスを学習する。この局所領域は、注意空間から無関係な参照点を除外し、より選択的な特徴学習と高速な収束をもたらす。我々は、このパラダイムをマルチヘッド化、階層化することで、異なる意味レベルでの情報蒸留を可能にし、きめ細かな深度推定のための特徴識別能力を向上させることができる。KITTIデータセットを用いた広範な実験により、我々の提案する方法は、自己教師付き単眼深度推定タスクにおいて新たな最先端を確立し、従来のTransformerの変種に対する我々のアプローチの有効性を実証している。

要約(オリジナル)

The exploration of mutual-benefit cross-domains has shown great potential toward accurate self-supervised depth estimation. In this work, we revisit feature fusion between depth and semantic information and propose an efficient local adaptive attention method for geometric aware representation enhancement. Instead of building global connections or deforming attention across the feature space without restraint, we bound the spatial interaction within a learnable region of interest. In particular, we leverage geometric cues from semantic information to learn local adaptive bounding boxes to guide unsupervised feature aggregation. The local areas preclude most irrelevant reference points from attention space, yielding more selective feature learning and faster convergence. We naturally extend the paradigm into a multi-head and hierarchic way to enable the information distillation in different semantic levels and improve the feature discriminative ability for fine-grained depth estimation. Extensive experiments on the KITTI dataset show that our proposed method establishes a new state-of-the-art in self-supervised monocular depth estimation task, demonstrating the effectiveness of our approach over former Transformer variants.

arxiv情報

著者 Daitao Xing,Jinglin Shen,Chiuman Ho,Anthony Tzes
発行日 2023-03-06 11:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク