AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval

要約

この研究では、メモリ効率の制約を伴うインスタンス レベルの画像取得の再ランキングの問題を調査し、最終的にはメモリ使用量を画像あたり 1KB に制限することを目指しています。
この取り組みでは、パフォーマンスの強化に重点を置く一般的な視点から離れ、パフォーマンスとメモリ要件の間の重要なトレードオフを優先しています。
提案されたモデルは、ローカル記述子に基づいて画像内および画像間の相互作用をキャプチャすることによって画像間の類似性を推定するように設計されたトランスフォーマーベースのアーキテクチャを使用します。
このモデルの特徴的な特性は、非対称類似性推定の機能です。
データベース イメージはクエリ イメージに比べて少ない数の記述子で表現されるため、メモリ消費量を増やすことなくパフォーマンスを向上させることができます。
さまざまなアプリケーション間での適応性を確保するために、テスト段階でさまざまな数のローカル記述子に調整するユニバーサル モデルが導入されます。
標準ベンチマークの結果は、手作りモデルと学習モデルの両方に対する私たちのアプローチの優位性を示しています。
特に、メモリ フットプリントを無視している現在の最先端の方法と比較して、私たちのアプローチは優れたパフォーマンスを達成するだけでなく、大幅に削減されたメモリ フットプリントでそれを実現します。
コードと事前トレーニングされたモデルは、https://github.com/pavelsuma/ames で公開されています。

要約(オリジナル)

This work investigates the problem of instance-level image retrieval re-ranking with the constraint of memory efficiency, ultimately aiming to limit memory usage to 1KB per image. Departing from the prevalent focus on performance enhancements, this work prioritizes the crucial trade-off between performance and memory requirements. The proposed model uses a transformer-based architecture designed to estimate image-to-image similarity by capturing interactions within and across images based on their local descriptors. A distinctive property of the model is the capability for asymmetric similarity estimation. Database images are represented with a smaller number of descriptors compared to query images, enabling performance improvements without increasing memory consumption. To ensure adaptability across different applications, a universal model is introduced that adjusts to a varying number of local descriptors during the testing phase. Results on standard benchmarks demonstrate the superiority of our approach over both hand-crafted and learned models. In particular, compared with current state-of-the-art methods that overlook their memory footprint, our approach not only attains superior performance but does so with a significantly reduced memory footprint. The code and pretrained models are publicly available at: https://github.com/pavelsuma/ames

arxiv情報

著者 Pavel Suma,Giorgos Kordopatis-Zilos,Ahmet Iscen,Giorgos Tolias
発行日 2024-08-06 16:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク