Understanding Visual Concepts Across Models

要約

安定拡散などの大規模なマルチモーダル モデルでは、たった 1 つの単語の埋め込みを微調整した後、新しい視覚概念を生成、検出、分類できます。
モデルは同じ概念の類似した単語を学習しますか (つまり、 = orange + cat)?
私たちは、テキストから画像への生成、オープンセットオブジェクト検出、ゼロショット分類の 3 つの最先端モデルで大規模な分析を実施し、新しい単語の埋め込みがモデル固有であり、非モデルであることを発見しました。
譲渡可能。
4 つの標準データセットで 40 の多様な視覚概念に対してトレーニングされた 4,800 の新しい埋め込み全体で、任意の概念を生成、検出、分類する以前の埋め込みに対する $\epsilon$-ball 内の摂動を見つけます。
これらの新しい埋め込みが新しいモデルに接続されると、元のモデルを対象とした微調整が失われます。
私たちは、一般的なソフト プロンプト チューニング アプローチが、ビジュアル コンセプトの学習タスクに適用された場合に、これらの摂動的な解決策を見つけることを示します。また、ビジュアル コンセプトの埋め込みは転送可能ではありません。
私たちの作品を再現するためのコードは、https://visual-words.github.io で入手できます。

要約(オリジナル)

Large multimodal models such as Stable Diffusion can generate, detect, and classify new visual concepts after fine-tuning just a single word embedding. Do models learn similar words for the same concepts (i.e. = orange + cat)? We conduct a large-scale analysis on three state-of-the-art models in text-to-image generation, open-set object detection, and zero-shot classification, and find that new word embeddings are model-specific and non-transferable. Across 4,800 new embeddings trained for 40 diverse visual concepts on four standard datasets, we find perturbations within an $\epsilon$-ball to any prior embedding that generate, detect, and classify an arbitrary concept. When these new embeddings are spliced into new models, fine-tuning that targets the original model is lost. We show popular soft prompt-tuning approaches find these perturbative solutions when applied to visual concept learning tasks, and embeddings for visual concepts are not transferable. Code for reproducing our work is available at: https://visual-words.github.io.

arxiv情報

著者 Brandon Trabucco,Max Gurinas,Kyle Doherty,Ruslan Salakhutdinov
発行日 2024-06-11 17:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク