GeneCIS: A Benchmark for General Conditional Image Similarity

要約

私たちは、「類似性」には多くの概念があり、人間と同様にモデルもこれらの概念に動的に適応できる必要があると主張します。
これは、固定の埋め込み関数を学習するため、暗黙的に単一の類似性概念を仮定する、教師ありまたは自己教師ありのほとんどの表現学習手法とは対照的です。
たとえば、ImageNet でトレーニングされたモデルはオブジェクト カテゴリに偏っていますが、ユーザーはモデルがシーン内の色、テクスチャ、または特定の要素に焦点を当てたいと考える場合があります。
この論文では、さまざまな類似条件に適応するモデルの能力を測定する GeneCIS (「ジェネシス」) ベンチマークを提案します。
以前の研究を拡張して、私たちのベンチマークはゼロショット評価のみを目的として設計されているため、類似性条件のオープンセットを考慮します。
強力な CLIP モデルのベースラインは GeneCIS では困難であり、ベンチマークのパフォーマンスは ImageNet の精度とわずかに相関しているだけであることがわかり、既存の手法を単純にスケーリングするだけでは効果がないことが示唆されています。
さらに、既存の画像キャプション データセットからの情報の自動マイニングに基づく、シンプルでスケーラブルなソリューションを提案します。
私たちの方法は、GeneCIS のベースラインを大幅に上回っており、関連する画像検索ベンチマークのゼロショット パフォーマンスをさらに向上させていることがわかりました。
実際、ゼロショットで評価されたにもかかわらず、私たちのモデルは MIT ステートの最先端の教師付きモデルを上回っています。
プロジェクトページは https://sgvaze.github.io/genecis/ にあります。

要約(オリジナル)

We argue that there are many notions of ‘similarity’ and that models, like humans, should be able to adapt to these dynamically. This contrasts with most representation learning methods, supervised or self-supervised, which learn a fixed embedding function and hence implicitly assume a single notion of similarity. For instance, models trained on ImageNet are biased towards object categories, while a user might prefer the model to focus on colors, textures or specific elements in the scene. In this paper, we propose the GeneCIS (‘genesis’) benchmark, which measures models’ ability to adapt to a range of similarity conditions. Extending prior work, our benchmark is designed for zero-shot evaluation only, and hence considers an open-set of similarity conditions. We find that baselines from powerful CLIP models struggle on GeneCIS and that performance on the benchmark is only weakly correlated with ImageNet accuracy, suggesting that simply scaling existing methods is not fruitful. We further propose a simple, scalable solution based on automatically mining information from existing image-caption datasets. We find our method offers a substantial boost over the baselines on GeneCIS, and further improves zero-shot performance on related image retrieval benchmarks. In fact, though evaluated zero-shot, our model surpasses state-of-the-art supervised models on MIT-States. Project page at https://sgvaze.github.io/genecis/.

arxiv情報

著者 Sagar Vaze,Nicolas Carion,Ishan Misra
発行日 2023-06-13 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク