要約
安定拡散などの大規模なマルチモーダル モデルでは、たった 1 つの単語の埋め込みを微調整した後、新しい視覚概念を生成、検出、分類できます。
モデルは同じ概念の類似した単語を学習しますか (つまり、
私たちは、テキストから画像への生成、オープンセットオブジェクト検出、ゼロショット分類の 3 つの最先端モデルで大規模な分析を実施し、新しい単語の埋め込みがモデル固有であり、非モデルであることを発見しました。
譲渡可能。
4 つの標準データセットで 40 の多様な視覚概念に対してトレーニングされた 4,800 の新しい埋め込み全体で、任意の概念を生成、検出、分類する以前の埋め込みに対する $\epsilon$-ball 内の摂動を見つけます。
これらの新しい埋め込みが新しいモデルに接続されると、元のモデルを対象とした微調整が失われます。
私たちは、一般的なソフト プロンプト チューニング アプローチが、ビジュアル コンセプトの学習タスクに適用された場合に、これらの摂動的な解決策を見つけることを示します。また、ビジュアル コンセプトの埋め込みは転送可能ではありません。
私たちの作品を再現するためのコードは、https://visual-words.github.io で入手できます。
要約(オリジナル)
Large multimodal models such as Stable Diffusion can generate, detect, and classify new visual concepts after fine-tuning just a single word embedding. Do models learn similar words for the same concepts (i.e.
arxiv情報
著者 | Brandon Trabucco,Max Gurinas,Kyle Doherty,Ruslan Salakhutdinov |
発行日 | 2024-06-11 17:40:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google