要約
非対称検索設定は、顔認識や画像検索など、リソースに制約のあるアプリケーションに適したソリューションです。
この設定では、ギャラリーのインデックス作成に大規模なモデルが使用され、クエリには軽量のモデルが使用されます。
このようなシステムにおける重要な原則は、両方のモデルが同じ埋め込みスペースを共有することを保証することです。
この分野のほとんどの手法は知識の蒸留に基づいています。
これらは便利ではありますが、いくつかの欠点があります。つまり、見つかった単一の最良のモデルのパフォーマンスによって上限が定められており、モデルのアンサンブルを単純な方法で使用するように拡張することができません。
この論文では、知識の蒸留に依存せず、埋め込み変換モデルを利用するアプローチを紹介します。
これにより、N 個の独立してトレーニングされた多様なギャラリー モデル (たとえば、異なるデータセットでトレーニングされた、または異なるアーキテクチャを持つ) と単一のクエリ モデルの使用が可能になります。
その結果、クエリに対する低い計算予算を維持しながら、単一モデルの精度を超えて全体的な精度が向上します。
さらに、ギャラリー画像の不確実性を推定するために、複数の変換された埋め込み間の多様性を利用するギャラリー画像拒否法を提案します。
要約(オリジナル)
The asymmetrical retrieval setting is a well suited solution for resource constrained applications such as face recognition and image retrieval. In this setting, a large model is used for indexing the gallery while a lightweight model is used for querying. The key principle in such systems is ensuring that both models share the same embedding space. Most methods in this domain are based on knowledge distillation. While useful, they suffer from several drawbacks: they are upper-bounded by the performance of the single best model found and cannot be extended to use an ensemble of models in a straightforward manner. In this paper we present an approach that does not rely on knowledge distillation, rather it utilizes embedding transformation models. This allows the use of N independently trained and diverse gallery models (e.g., trained on different datasets or having a different architecture) and a single query model. As a result, we improve the overall accuracy beyond that of any single model while maintaining a low computational budget for querying. Additionally, we propose a gallery image rejection method that utilizes the diversity between multiple transformed embeddings to estimate the uncertainty of gallery images.
arxiv情報
著者 | Ori Linial,Alon Shoshan,Nadav Bhonker,Elad Hirsch,Lior Zamir,Igor Kviatkovsky,Gerard Medioni |
発行日 | 2023-10-29 15:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google