What’s in a Name? Beyond Class Indices for Image Recognition

要約

タイトル:画像認識のためのクラスのインデックス以上のもの

要約:
– 現在、機械学習モデルは大規模データセットで完全に訓練された後に、画像オブジェクト認識において優れた性能を発揮している。
– しかし、これらのモデルは、画像を事前に定義されたクラスインデックスにマップするだけであり、画像内のオブジェクトの実際の意味を明らかにしない。
– 一方、CLIPのようなビジョン言語モデルは、ゼロショットの方法で未知のオブジェクトに意味的なクラス名を割り当てることができるが、テスト時には事前に定義された候補名のセットに依存する。
– この論文では、画像に対して事前に決まったカテゴリの語彙のみを与えられた場合に、ビジョン言語モデルにクラス名を割り当てる認識問題を再考する。
– データを反復的にクラスタリングし、それら内のクラス名を投票することを提案し、この方法がImageNet上のベースラインよりも50%程度の改善を可能にすることを示している。
– さらに、これを、未監視および部分監視設定、粗い探索空間および微細探索空間を持つ非制約辞書で解決する。

要約(オリジナル)

Existing machine learning models demonstrate excellent performance in image object recognition after training on a large-scale dataset under full supervision. However, these models only learn to map an image to a predefined class index, without revealing the actual semantic meaning of the object in the image. In contrast, vision-language models like CLIP are able to assign semantic class names to unseen objects in a `zero-shot’ manner, although they still rely on a predefined set of candidate names at test time. In this paper, we reconsider the recognition problem and task a vision-language model to assign class names to images given only a large and essentially unconstrained vocabulary of categories as prior information. We use non-parametric methods to establish relationships between images which allow the model to automatically narrow down the set of possible candidate names. Specifically, we propose iteratively clustering the data and voting on class names within them, showing that this enables a roughly 50\% improvement over the baseline on ImageNet. Furthermore, we tackle this problem both in unsupervised and partially supervised settings, as well as with a coarse-grained and fine-grained search space as the unconstrained dictionary.

arxiv情報

著者 Kai Han,Yandong Li,Sagar Vaze,Jie Li,Xuhui Jia
発行日 2023-04-05 11:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク