要約
キーポイント検出と記述子抽出における最近の進歩により、局所特徴学習タスクにおいて優れたパフォーマンスが示されています。
ただし、既存の方法は一般に、大幅な外観の変化やドメインのシフトなどの極端な条件下では最適以下のパフォーマンスを示します。
この研究では、ドメイン適応による堅牢で正確な特徴の学習を容易にする 2 つの重要なコンポーネントを組み込んだマルチレベルの特徴集約ネットワークを紹介します。
まず、ドメイン適応監視を使用して、さまざまなドメイン間で高レベルの特徴分布を調整し、不変のドメイン表現を実現します。
2 番目に、波形位置エンコード概念を通じて視覚情報と幾何情報を統合することで記述子の堅牢性を強化し、複雑な条件を効果的に処理する、Transformer ベースのブースターを提案します。
機能の精度と堅牢性を確保するために、階層アーキテクチャを採用して包括的な情報を取得し、キーポイントの検出、記述子の抽出、およびそれらの結合処理に細心の注意を払って対象を絞った監視を適用します。
広範な実験により、私たちの手法である RADA が画像マッチング、カメラ姿勢推定、および視覚的位置特定タスクにおいて優れた結果を達成することが実証されました。
要約(オリジナル)
Recent advancements in keypoint detection and descriptor extraction have shown impressive performance in local feature learning tasks. However, existing methods generally exhibit suboptimal performance under extreme conditions such as significant appearance changes and domain shifts. In this study, we introduce a multi-level feature aggregation network that incorporates two pivotal components to facilitate the learning of robust and accurate features with domain adaptation. First, we employ domain adaptation supervision to align high-level feature distributions across different domains to achieve invariant domain representations. Second, we propose a Transformer-based booster that enhances descriptor robustness by integrating visual and geometric information through wave position encoding concepts, effectively handling complex conditions. To ensure the accuracy and robustness of features, we adopt a hierarchical architecture to capture comprehensive information and apply meticulous targeted supervision to keypoint detection, descriptor extraction, and their coupled processing. Extensive experiments demonstrate that our method, RADA, achieves excellent results in image matching, camera pose estimation, and visual localization tasks.
arxiv情報
著者 | Jingtai He,Gehao Zhang,Tingting Liu,Songlin Du |
発行日 | 2024-07-22 16:49:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google