Residual Learning for Image Point Descriptors

要約

ローカル画像特徴記述子は、コンピューター ビジョン手法の開発と応用に多大な影響を与えてきました。
したがって、学習ベースの画像点記述子に対して多大な努力が払われていることは驚くべきことではありません。
ただし、実際のアプリケーションにおける手作りの方法に対する学習された方法の利点は微妙であり、予想よりも微妙です。
さらに、SIFT や SURF などの手作りの記述子は、学習された多くの対応する記述子と比較して、Structure-from-Motion (SfM) での点位置特定を依然として良好に実行します。
この論文では、手作りの検出器と記述子を使用してローカル画像記述子を学習するための非常にシンプルで効果的なアプローチを提案します。
具体的には、点位置特定ヘッドを破棄しながら、手作りの記述子によってサポートされる記述子のみを学習することを選択します。
手作りの記述子にすでに存在する知識を活用して、最終的な記述子を最適化します。
このような最適化アプローチにより、手動で作成された記述子などの微分不可能な関数にすでに存在する学習知識を破棄し、メイン ネットワーク ブランチの残りの知識のみを学習することができます。
これにより、SuperPoint の標準ベースライン アーキテクチャと比較して 50 倍の収束速度が提供され、推論では、結合された記述子は、学習された記述子や手作りされた記述子よりも優れたパフォーマンスを提供します。
これは、ベースラインで学習された記述子を超える計算量をわずかに増加させることで行われます。
私たちのアプローチは、アンサンブル学習や非微分関数を使用した学習に応用できる可能性があります。
私たちのアプローチの利点を示すために、マッチング、カメラ位置特定、および Structure-from-Motion の実験を実行します。

要約(オリジナル)

Local image feature descriptors have had a tremendous impact on the development and application of computer vision methods. It is therefore unsurprising that significant efforts are being made for learning-based image point descriptors. However, the advantage of learned methods over handcrafted methods in real applications is subtle and more nuanced than expected. Moreover, handcrafted descriptors such as SIFT and SURF still perform better point localization in Structure-from-Motion (SfM) compared to many learned counterparts. In this paper, we propose a very simple and effective approach to learning local image descriptors by using a hand-crafted detector and descriptor. Specifically, we choose to learn only the descriptors, supported by handcrafted descriptors while discarding the point localization head. We optimize the final descriptor by leveraging the knowledge already present in the handcrafted descriptor. Such an approach of optimization allows us to discard learning knowledge already present in non-differentiable functions such as the hand-crafted descriptors and only learn the residual knowledge in the main network branch. This offers 50X convergence speed compared to the standard baseline architecture of SuperPoint while at inference the combined descriptor provides superior performance over the learned and hand-crafted descriptors. This is done with minor increase in the computations over the baseline learned descriptor. Our approach has potential applications in ensemble learning and learning with non-differentiable functions. We perform experiments in matching, camera localization and Structure-from-Motion in order to showcase the advantages of our approach.

arxiv情報

著者 Rashik Shrestha,Ajad Chhatkuli,Menelaos Kanakis,Luc Van Gool
発行日 2023-12-24 12:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク