要約
対応関係のマッチングは、多くのロボット工学アプリケーションで重要な役割を果たします。
従来の手作りの手法や最近のデータ駆動型のアプローチと比較して、事前にトレーニングされたバックボーン ネットワークを最大限に利用してマルチスケールの特徴を抽出し、階層的改良戦略を活用して一致するデータを生成するプラグ アンド プレイ アルゴリズムに大きな関心が寄せられています。
通信。
このペーパーの主な焦点は、最先端 (SoTA) のプラグ アンド プレイ対応マッチング アプローチであるディープ フィーチャ マッチング (DFM) の制限に対処することです。
まず、より柔軟な最近傍検索戦略を活用することで、DFM の階層的絞り込みプロセスで使用される事前定義されたしきい値を排除し、それによって初期段階で反復的ではあるが有効な一致が除外されるのを防ぎます。
私たちの 2 番目の技術貢献は、パッチ記述子の統合です。これにより、DFM の適用可能性が拡張され、画像分類、セマンティック セグメンテーション、ステレオ マッチングなど、さまざまなコンピューター ビジョン タスクにわたって事前トレーニングされた幅広いバックボーン ネットワークに対応できるようになります。
実世界のロボット工学アプリケーションにおける私たちの方法の実際的な適用可能性を考慮して、対応マッチングの計算の複雑さをさらに軽減するための新しいパッチ記述子蒸留戦略も提案します。
3 つの公開データセットに対して行われた広範な実験により、私たちが提案した方法の優れたパフォーマンスが実証されました。
具体的には、HPatches データセット上で、許容値 1、3、5 ピクセルに対してそれぞれ 0.68、0.92、0.95 の平均マッチング精度という点で全体的なパフォーマンスを達成し、他のすべての SoTA アルゴリズムを上回ります。
私たちのソース コード、デモ ビデオ、補足資料は、mias.group/GCM で公開されています。
要約(オリジナル)
Correspondence matching plays a crucial role in numerous robotics applications. In comparison to conventional hand-crafted methods and recent data-driven approaches, there is significant interest in plug-and-play algorithms that make full use of pre-trained backbone networks for multi-scale feature extraction and leverage hierarchical refinement strategies to generate matched correspondences. The primary focus of this paper is to address the limitations of deep feature matching (DFM), a state-of-the-art (SoTA) plug-and-play correspondence matching approach. First, we eliminate the pre-defined threshold employed in the hierarchical refinement process of DFM by leveraging a more flexible nearest neighbor search strategy, thereby preventing the exclusion of repetitive yet valid matches during the early stages. Our second technical contribution is the integration of a patch descriptor, which extends the applicability of DFM to accommodate a wide range of backbone networks pre-trained across diverse computer vision tasks, including image classification, semantic segmentation, and stereo matching. Taking into account the practical applicability of our method in real-world robotics applications, we also propose a novel patch descriptor distillation strategy to further reduce the computational complexity of correspondence matching. Extensive experiments conducted on three public datasets demonstrate the superior performance of our proposed method. Specifically, it achieves an overall performance in terms of mean matching accuracy of 0.68, 0.92, and 0.95 with respect to the tolerances of 1, 3, and 5 pixels, respectively, on the HPatches dataset, outperforming all other SoTA algorithms. Our source code, demo video, and supplement are publicly available at mias.group/GCM.
arxiv情報
著者 | Yu Han,Ziwei Long,Yanting Zhang,Jin Wu,Zhijun Fang,Rui Fan |
発行日 | 2024-03-08 15:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google