要約
画像検索方法は、類似性照合のための判別クエリと参照 (ギャラリー) 特徴表現を抽出できるバックボーン特徴抽出モデルをトレーニングするためのメトリック学習に依存しています。
大規模なデータセットでトレーニングされたディープラーニング (DL) モデルの出現により、最先端の精度は大幅に向上しましたが、多くの実世界のビデオ分析や監視アプリケーション (人物の再識別など) では、画像の検索は依然として困難です。
マッチングにユークリッド空間を使用すると、次元性、過剰適合、ノイズの多いデータに対する感度の呪いにより、現実世界のアプリケーションのパフォーマンスが制限されます。
我々は、特徴量相違空間が類似性マッチングにより適していると主張し、クエリと参照の埋め込みを相違空間内の単一の埋め込みに射影するための二分変換を提案します。
また、ペアワイズ マッチングのためのバックボーンとバイナリ分類モデルのエンドツーエンド トレーニングも推奨します。
クエリと参照エンベディング間の距離を比較するのとは対照的に、特にエンドツーエンドでトレーニングした場合に、単一の非類似性空間エンベディングを (類似または非類似として) 分類する利点を示します。
ヒンジ損失とともに分類器の重みの L2 ノルムに制約を適用することで、バックボーン特徴抽出器とともに最大マージン分類器をトレーニングする方法を提案します。
挑戦的な画像検索データセットと多様な特徴抽出バックボーンの使用に関する広範な実験により、相違点空間における類似性マッチングの利点が明らかになりました。
特に、特徴抽出バックボーンと照合用の正規化分類器を共同でトレーニングする場合、相違点空間はより高いレベルの精度を提供します。
要約(オリジナル)
Image retrieval methods rely on metric learning to train backbone feature extraction models that can extract discriminant queries and reference (gallery) feature representations for similarity matching. Although state-of-the-art accuracy has improved considerably with the advent of deep learning (DL) models trained on large datasets, image retrieval remains challenging in many real-world video analytics and surveillance applications, e.g., person re-identification. Using the Euclidean space for matching limits the performance in real-world applications due to the curse of dimensionality, overfitting, and sensitivity to noisy data. We argue that the feature dissimilarity space is more suitable for similarity matching, and propose a dichotomy transformation to project query and reference embeddings into a single embedding in the dissimilarity space. We also advocate for end-to-end training of a backbone and binary classification models for pair-wise matching. As opposed to comparing the distance between queries and reference embeddings, we show the benefits of classifying the single dissimilarity space embedding (as similar or dissimilar), especially when trained end-to-end. We propose a method to train the max-margin classifier together with the backbone feature extractor by applying constraints to the L2 norm of the classifier weights along with the hinge loss. Our extensive experiments on challenging image retrieval datasets and using diverse feature extraction backbones highlight the benefits of similarity matching in the dissimilarity space. In particular, when jointly training the feature extraction backbone and regularised classifier for matching, the dissimilarity space provides a higher level of accuracy.
arxiv情報
| 著者 | Madhu Kiran,Kartikey Vishnu,Rafael M. O. Cruz,Eric Granger |
| 発行日 | 2024-12-11 18:39:32+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google