Divide&Classify: Fine-Grained Classification for City-Wide Visual Place Recognition

要約

視覚的な場所の認識は、一般的に画像検索の問題として扱われます。
ただし、取得方法は、その次元が推論時間に悪影響を与えるため、都市全体の地図から高密度にサンプリングされた大規模なデータセットに拡張するのは非現実的です。
取得に近似最近傍検索を使用すると、パフォーマンスが低下しますが、この問題を軽減できます。
この論文では、このタスクに分類問題として効果的にアプローチし、類似性検索の必要性を回避できるかどうかを調査します。
大まかな惑星全体の位置特定のための既存の分類方法は、きめの細かい都市全体の設定には適していないことがわかりました。
これは主に、データセットがクラスに分割される方法によるものです。これらのメソッドは、写真のまばらな分布を処理するように設計されているため、高密度のシナリオで自然に発生する、隣接するクラス間での視覚的なエイリアシングの問題を考慮していないためです。
したがって、単純な学習手順を維持しながら、高速かつ正確な推論を可能にする分割スキームと、角度マージン損失によって学習されたプロトタイプを使用する新しい分類器のアンサンブルに基づく新しい推論パイプラインを提案します。
私たちの手法である Divide&Classify (D&C) は、分類ソリューションの高速推論と、きめ細かい都市全体の設定での検索手法に匹敵する精度を実現します。
さらに、D&C を既存の検索パイプラインと組み合わせることで、再現率を高めながら計算を 20 倍以上高速化し、新しい最先端の結果につながることを示します。

要約(オリジナル)

Visual Place recognition is commonly addressed as an image retrieval problem. However, retrieval methods are impractical to scale to large datasets, densely sampled from city-wide maps, since their dimension impact negatively on the inference time. Using approximate nearest neighbour search for retrieval helps to mitigate this issue, at the cost of a performance drop. In this paper we investigate whether we can effectively approach this task as a classification problem, thus bypassing the need for a similarity search. We find that existing classification methods for coarse, planet-wide localization are not suitable for the fine-grained and city-wide setting. This is largely due to how the dataset is split into classes, because these methods are designed to handle a sparse distribution of photos and as such do not consider the visual aliasing problem across neighbouring classes that naturally arises in dense scenarios. Thus, we propose a partitioning scheme that enables a fast and accurate inference, preserving a simple learning procedure, and a novel inference pipeline based on an ensemble of novel classifiers that uses the prototypes learned via an angular margin loss. Our method, Divide&Classify (D&C), enjoys the fast inference of classification solutions and an accuracy competitive with retrieval methods on the fine-grained, city-wide setting. Moreover, we show that D&C can be paired with existing retrieval pipelines to speed up computations by over 20 times while increasing their recall, leading to new state-of-the-art results.

arxiv情報

著者 Gabriele Trivigno,Gabriele Berton,Carlo Masone,Juan Aragon,Barbara Caputo
発行日 2023-07-17 11:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク