要約
画像マッチングの分野では、新しい学習可能な特徴マッチング技術が次々と登場し、従来のベンチマークでのパフォーマンスが向上し続けています。
しかし、私たちの調査によると、これらの利点にもかかわらず、現実世界への応用の可能性は、新しい画像領域への一般化機能が限られているため制限されています。
このペーパーでは、一般化を中心原理として設計された初の学習可能な画像マッチャーである OmniGlue を紹介します。
OmniGlue は、ビジョン基盤モデルからの幅広い知識を活用して特徴一致プロセスをガイドし、トレーニング時には見られなかった領域への一般化を促進します。
さらに、空間情報と外観情報を解きほぐし、マッチング記述子の強化につながる、新しいキーポイント位置誘導型注意メカニズムを提案します。
私たちは、シーンレベル、オブジェクト中心の画像、航空画像など、さまざまな画像ドメインを含む一連の $7$ データセットに対して包括的な実験を実行します。
OmniGlue の新しいコンポーネントは、直接比較可能な参照モデルと比較して、目に見えないドメインで $20.9\%$ の相対的な利益をもたらし、同時に最近の LightGlue メソッドを相対的に $9.5\%$ 上回ります。コードとモデルは https://hwjiang1510 で見つけることができます。
.github.io/OmniGlue
要約(オリジナル)
The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of $7$ datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue’s novel components lead to relative gains on unseen domains of $20.9\%$ with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by $9.5\%$ relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
arxiv情報
著者 | Hanwen Jiang,Arjun Karpur,Bingyi Cao,Qixing Huang,Andre Araujo |
発行日 | 2024-05-21 17:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google