Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion

要約

NOVIC は、自己回帰変換器を使用して分類ラベルを言語として生成的に出力する、革新的なリアルタイムの制約のないオープン語彙画像分類器です。
NOVIC は、CLIP モデルの広範な知識を活用して、埋め込みスペースを利用して、純粋なテキストから画像へのゼロショット転送を可能にします。
従来の CLIP モデルは、オープンな語彙分類機能にもかかわらず、潜在的なクラス ラベルの徹底的なプロンプトを必要とし、既知のコンテンツまたはコンテキストの画像への適用が制限されていました。
これに対処するために、テンプレート化されたオブジェクト名詞セットと LLM で生成されたキャプションからなる大規模な 92M ターゲット データセットでトレーニングされ、問題のオブジェクト名詞を常に出力する「オブジェクト デコーダー」モデルを提案します。
これにより、CLIP テキスト エンコーダが効果的に反転され、画像の潜在的な内容についてのアプリオリな知識を必要とせず、またラベルのバイアスもなく、本質的に英語全体のテキスト オブジェクト ラベルを画像由来の埋め込みベクトルから直接生成できるようになります。
トレーニングされたデコーダーは、手動データセットと Web で厳選されたデータセット、および標準的な画像分類ベンチマークの組み合わせでテストされ、最大 87.5% というきめ細かいプロンプトなしの予測スコアを達成しました。これは、モデルがどのような環境でも機能する必要があることを考慮すると、強力な結果です。
考えられるイメージであり、文脈上の手がかりはありません。

要約(オリジナル)

We introduce NOVIC, an innovative real-time uNconstrained Open Vocabulary Image Classifier that uses an autoregressive transformer to generatively output classification labels as language. Leveraging the extensive knowledge of CLIP models, NOVIC harnesses the embedding space to enable zero-shot transfer from pure text to images. Traditional CLIP models, despite their ability for open vocabulary classification, require an exhaustive prompt of potential class labels, restricting their application to images of known content or context. To address this, we propose an ‘object decoder’ model that is trained on a large-scale 92M-target dataset of templated object noun sets and LLM-generated captions to always output the object noun in question. This effectively inverts the CLIP text encoder and allows textual object labels from essentially the entire English language to be generated directly from image-derived embedding vectors, without requiring any a priori knowledge of the potential content of an image, and without any label biases. The trained decoders are tested on a mix of manually and web-curated datasets, as well as standard image classification benchmarks, and achieve fine-grained prompt-free prediction scores of up to 87.5%, a strong result considering the model must work for any conceivable image and without any contextual clues.

arxiv情報

著者 Philipp Allgeuer,Kyra Ahrens,Stefan Wermter
発行日 2024-11-18 14:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク