要約
キーポイントは、構造からの構造(SFM)システムが数千の画像にスケーリングできるようにするものです。
ただし、SFMは非拡張不可能であるため、キーポイント検出目標の設計は自明ではないタスクです。
通常、記述子を含む補助目標が最適化されます。
ただし、これは記述子への依存性を誘発します。これは望ましくありません。
この論文では、補強学習を通じて、キーポイント検出のための完全に自己監視され、記述されない目標を提案します。
トレーニングが退化しないようにするために、バランスの取れたTOP-Kサンプリング戦略を活用します。
これはすでに競争力のあるモデルを生成していますが、2つの定性的に異なるタイプの検出器が出現し、それぞれ明かりと暗いキーポイントのみを検出できることがわかります。
これを改善するために、私たちは、明るい検出器と暗い検出器の両方のポイントワイズの最大値のカルバック繰り返しの発散を最適化する3番目の検出器であるDADを訓練します。
私たちのアプローチは、さまざまなベンチマークにわたってSOTAを大幅に改善しています。
コードとモデルの重みは、https:github.com/parskatt/dadで公開されています
要約(オリジナル)
Keypoints are what enable Structure-from-Motion (SfM) systems to scale to thousands of images. However, designing a keypoint detection objective is a non-trivial task, as SfM is non-differentiable. Typically, an auxiliary objective involving a descriptor is optimized. This however induces a dependency on the descriptor, which is undesirable. In this paper we propose a fully self-supervised and descriptor-free objective for keypoint detection, through reinforcement learning. To ensure training does not degenerate, we leverage a balanced top-K sampling strategy. While this already produces competitive models, we find that two qualitatively different types of detectors emerge, which are only able to detect light and dark keypoints respectively. To remedy this, we train a third detector, DaD, that optimizes the Kullback-Leibler divergence of the pointwise maximum of both light and dark detectors. Our approach significantly improve upon SotA across a range of benchmarks. Code and model weights are publicly available at https:github.com/parskatt/dad
arxiv情報
著者 | Johan Edstedt,Georg Bökman,Mårten Wadenbäck,Michael Felsberg |
発行日 | 2025-03-10 14:02:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google