Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier

要約

CLIP などの大規模な事前トレーニング済み視覚言語モデルの出現により、即時学習方法は CLIP モデルの移転可能性を高めることを目的としています。
彼らは、事前知識として特定のクラス名が与えられた下流タスクからの少数のサンプルを与えられたプロンプトを学習します。これを意味論を意識した分類と呼びます。
ただし、多くの現実的なシナリオでは、少数のサンプルとクラス名の知識しかアクセスできません (たとえば、クラスのインスタンスを検討する場合)。
この困難なシナリオは、意味論にとらわれない差別的なケースを表しています。
Text-to-Image (T2I) パーソナライゼーション手法は、新しいトークンを学習し、学習した概念を生成する機能をこれらのトークンに与えることで、T2I モデルを目に見えない概念に適応させることを目的としています。
これらのメソッドは、意味論を意識した事前のクラス名の知識を必要としません。
したがって、この論文では、最初にテキスト反転を調査し、各カテゴリを単一の概念とみなすことによって、新しい概念トークンが生成機能と分類機能の両方を備えていることを明らかにします。
ただし、学習されたトークンが識別タスクにとって最適ではないため、単一概念のテキスト反転からの分類器の学習には制限があります。
この問題を軽減するために、トークン更新プロセスの識別的な正則化用語を含む、マルチクラスのテキスト反転を提案します。
この手法を使用することで、私たちのメソッド MC-TI は、カテゴリごとにわずかなサンプルしか与えられない場合に、これらの修飾子トークンの生成機能を維持しながら、より強力な意味論に依存しない分類を実現します。
実験では、さまざまなシナリオをカバーする 12 のデータセットで MC-TI を広範に評価し、MC-TI が分類と生成結果の両方の点で優れた結果を達成することを実証しています。

要約(オリジナル)

With the advent of large pre-trained vision-language models such as CLIP, prompt learning methods aim to enhance the transferability of the CLIP model. They learn the prompt given few samples from the downstream task given the specific class names as prior knowledge, which we term as semantic-aware classification. However, in many realistic scenarios, we only have access to few samples and knowledge of the class names (e.g., when considering instances of classes). This challenging scenario represents the semantic-agnostic discriminative case. Text-to-Image (T2I) personalization methods aim to adapt T2I models to unseen concepts by learning new tokens and endowing these tokens with the capability of generating the learned concepts. These methods do not require knowledge of class names as a semantic-aware prior. Therefore, in this paper, we first explore Textual Inversion and reveal that the new concept tokens possess both generation and classification capabilities by regarding each category as a single concept. However, learning classifiers from single-concept textual inversion is limited since the learned tokens are suboptimal for the discriminative tasks. To mitigate this issue, we propose Multi-Class textual inversion, which includes a discriminative regularization term for the token updating process. Using this technique, our method MC-TI achieves stronger Semantic-Agnostic Classification while preserving the generation capability of these modifier tokens given only few samples per category. In the experiments, we extensively evaluate MC-TI on 12 datasets covering various scenarios, which demonstrates that MC-TI achieves superior results in terms of both classification and generation outcomes.

arxiv情報

著者 Kai Wang,Fei Yang,Bogdan Raducanu,Joost van de Weijer
発行日 2024-10-29 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク