Granularity-aware Adaptation for Image Retrieval over Multiple Tasks

要約

強力な画像検索モデルは、特定のドメイン、すなわちラベルの集合に対して、そのドメインのラベル付き画像が利用可能であれば、学習可能である。しかし、実用的な画像検索モデルは、複数の検索タスクを同時に解決できるほど汎用的であるべきであり、たとえそれらが全く異なる専門領域を対象としていてもよい。さらに、これらの様々な検索タスクから得られるラベルのない画像からも利益を得ることができる必要がある。本論文では、このような、より実用的なシナリオを検討する。我々はGrappaを提案する。Grappaは強力な事前学習済みモデルから出発し、異なるタスクドメインからのラベル無し画像のみを用いて、複数の検索タスクに同時に取り組むよう適応させるアプローチである。事前学習されたモデルを、異なるサイズの擬似ラベル集合を用いる複数の独立に学習されたアダプタ集合で拡張し、異なる擬似粒度を効果的に模倣する。そして、特徴空間内の近傍にある擬似粒度の注意を伝搬させることによって導く融合層を学習することにより、全てのアダプターセットを全ての検索タスクに適した単一の統一的なモデルに調整する。6つの異種検索タスクからなるベンチマークを用いた結果、教師なしGrappaモデルは、最先端の自己教師付き学習モデルのゼロショット性能を改善し、タスクごとに最も適した擬似粒度を選択するタスクラベル認識型オラクルに達するかそれ以上の性能を示す場所もあることがわかった。

要約(オリジナル)

Strong image search models can be learned for a specific domain, ie. set of labels, provided that some labeled images of that domain are available. A practical visual search model, however, should be versatile enough to solve multiple retrieval tasks simultaneously, even if those cover very different specialized domains. Additionally, it should be able to benefit from even unlabeled images from these various retrieval tasks. This is the more practical scenario that we consider in this paper. We address it with the proposed Grappa, an approach that starts from a strong pretrained model, and adapts it to tackle multiple retrieval tasks concurrently, using only unlabeled images from the different task domains. We extend the pretrained model with multiple independently trained sets of adaptors that use pseudo-label sets of different sizes, effectively mimicking different pseudo-granularities. We reconcile all adaptor sets into a single unified model suited for all retrieval tasks by learning fusion layers that we guide by propagating pseudo-granularity attentions across neighbors in the feature space. Results on a benchmark composed of six heterogeneous retrieval tasks show that the unsupervised Grappa model improves the zero-shot performance of a state-of-the-art self-supervised learning model, and in some places reaches or improves over a task label-aware oracle that selects the most fitting pseudo-granularity per task.

arxiv情報

著者 Jon Almazán,Byungsoo Ko,Geonmo Gu,Diane Larlus,Yannis Kalantidis
発行日 2022-10-05 13:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク