ZippyPoint: Fast Interest Point Detection, Description, and Matching through Mixed Precision Discretization

要約

画像内の幾何学的領域の効率的な検出と記述は、ローカリゼーションとマッピングのための視覚システムの前提条件です。
このようなシステムは、軽量の記述子を効率的に生成するために、従来の手作りの方法に依拠しています。
このホワイト ペーパーでは、ロボット、モバイル、拡張現実デバイスなどの計算量が制限されたプラットフォームでの使用を可能にするために、検出および記述ニューラル ネットワークで必要とされる適応に焦点を当てます。
そのために、ネットワークの量子化技術を調査して適応させ、推論を加速し、計算が制限されたプラットフォームで使用できるようにします。
さらに、記述子の量子化における一般的な手法を再検討し、バイナリ記述子の正規化レイヤーの使用を提案して、一定数の 1 を持つ独特のバイナリ記述子の生成を可能にします。
バイナリ記述子を使用した効率的な量子化ネットワークである ZippyPoint は、ネットワークの実行速度、記述子の一致速度、および 3D モデルのサイズを、完全精度の同等のものと比較して少なくとも 1 桁向上させます。
これらの改善は、ホモグラフィ推定、ビジュアル ローカリゼーション、およびマップを使用しないビジュアル リローカリゼーションのタスクで評価されるように、わずかなパフォーマンスの低下で実現されます。
コードとトレーニング済みのモデルは、承認後にリリースされます。

要約(オリジナル)

Efficient detection and description of geometric regions in images is a prerequisite in visual systems for localization and mapping. Such systems still rely on traditional hand-crafted methods for efficient generation of lightweight descriptors, a common limitation of the more powerful neural network models that come with high compute and specific hardware requirements. In this paper, we focus on the adaptations required by detection and description neural networks to enable their use in computationally limited platforms such as robots, mobile, and augmented reality devices. To that end, we investigate and adapt network quantization techniques to accelerate inference and enable its use on compute limited platforms. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive binary descriptors with a constant number of ones. ZippyPoint, our efficient quantized network with binary descriptors, improves the network runtime speed, the descriptor matching speed, and the 3D model size, by at least an order of magnitude when compared to full-precision counterparts. These improvements come at a minor performance degradation as evaluated on the tasks of homography estimation, visual localization, and map-free visual relocalization. Code and trained models will be released upon acceptance.

arxiv情報

著者 Menelaos Kanakis,Simon Maurer,Matteo Spallanzani,Ajad Chhatkuli,Luc Van Gool
発行日 2022-12-14 12:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク