Vocabulary-free Image Classification

要約

大規模な視覚言語モデルの最近の進歩により、画像分類パラダイムに革命が起こりました。
優れたゼロショット機能を示しているにもかかわらず、テスト時にテキスト プロンプトを作成するために、事前に定義されたカテゴリのセット (別名語彙) が想定されます。
ただし、意味論的なコンテキストが不明であり、進化している場合、そのような仮定は非現実的になる可能性があります。
したがって、我々は、語彙フリー画像分類 (VIC) と呼ばれる新しいタスクを形式化します。このタスクでは、既知の語彙を前提とすることなく、制約のない言語によって引き起こされる意味論的空間に存在するクラスを入力画像に割り当てることを目的としています。
VIC は、意味空間が非常に大きく、何百万もの概念が含まれており、区別するのが難しい細かいカテゴリがあるため、困難なタスクです。
この研究では、まず、外部視覚言語データベースを使用してこの意味空間を表現することが、画像を分類するために意味的に関連するコンテンツを取得する最も効果的な方法であることを経験的に検証します。
次に、外部データベースからのカテゴリ検索 (CaSED) を提案します。これは、事前にトレーニングされた視覚言語モデルと外部視覚言語データベースを利用して、トレーニングなしで VIC に対処する方法です。
CaSED は、まず、画像との意味的類似性に基づいてデータベースから取得したキャプションから一連の候補カテゴリを抽出し、次に、同じ視覚言語モデルに従って、最も一致する候補カテゴリを画像に割り当てます。
ベンチマーク データセットの実験により、CaSED が他の複雑な視覚言語フレームワークよりも優れたパフォーマンスを示し、さらに少ないパラメーターで効率的であることが検証され、この方向での将来の研究への道が開かれます。

要約(オリジナル)

Recent advances in large vision-language models have revolutionized the image classification paradigm. Despite showing impressive zero-shot capabilities, a pre-defined set of categories, a.k.a. the vocabulary, is assumed at test time for composing the textual prompts. However, such assumption can be impractical when the semantic context is unknown and evolving. We thus formalize a novel task, termed as Vocabulary-free Image Classification (VIC), where we aim to assign to an input image a class that resides in an unconstrained language-induced semantic space, without the prerequisite of a known vocabulary. VIC is a challenging task as the semantic space is extremely large, containing millions of concepts, with hard-to-discriminate fine-grained categories. In this work, we first empirically verify that representing this semantic space by means of an external vision-language database is the most effective way to obtain semantically relevant content for classifying the image. We then propose Category Search from External Databases (CaSED), a method that exploits a pre-trained vision-language model and an external vision-language database to address VIC in a training-free manner. CaSED first extracts a set of candidate categories from captions retrieved from the database based on their semantic similarity to the image, and then assigns to the image the best matching candidate category according to the same vision-language model. Experiments on benchmark datasets validate that CaSED outperforms other complex vision-language frameworks, while being efficient with much fewer parameters, paving the way for future research in this direction.

arxiv情報

著者 Alessandro Conti,Enrico Fini,Massimiliano Mancini,Paolo Rota,Yiming Wang,Elisa Ricci
発行日 2024-01-12 15:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク