YoChameleon: Personalized Vision and Language Generation

要約

大規模なマルチモーダルモデル(GPT-4、ジェミニ、カメレオンなど)は、何百万人ものユーザーとの強力なツールに進化しました。
ただし、一般的なモデルのままであり、特定のユーザー概念に関するパーソナライズされた知識がありません。
以前の研究では、テキスト生成のパーソナライズを調査していましたが、これらの方法を画像生成などの新しいモダリティにどのように適合させることができるかは不明のままです。
この論文では、大規模なマルチモーダルモデルのパーソナライズを研究する最初の試みであるYo’Chameleonを紹介します。
特定の概念の3-5の画像を考慮して、Yo’Chameleonはソフトプロムプトチューニングをレバレッジしてサブジェクト固有の情報を埋め込み、(i)被写体に関する質問に答え、(ii)ピクセルレベルの詳細を再現して、新しいコンテキストで主題の画像を作成します。
Yo’Chameleonには、(i)複数のモダリティにわたってパフォーマンスのバランスをとる自己促進最適化メカニズムと、(ii)少数のショット設定で画質を高める「ソフトポジティブな」画像生成アプローチで訓練されています。

要約(オリジナル)

Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into powerful tools with millions of users. However, they remain generic models and lack personalized knowledge of specific user concepts. Previous work has explored personalization for text generation, yet it remains unclear how these methods can be adapted to new modalities, such as image generation. In this paper, we introduce Yo’Chameleon, the first attempt to study personalization for large multimodal models. Given 3-5 images of a particular concept, Yo’Chameleon leverages soft-prompt tuning to embed subject-specific information to (i) answer questions about the subject and (ii) recreate pixel-level details to produce images of the subject in new contexts. Yo’Chameleon is trained with (i) a self-prompting optimization mechanism to balance performance across multiple modalities, and (ii) a “soft-positive’ image generation approach to enhance image quality in a few-shot setting.

arxiv情報

著者 Thao Nguyen,Krishna Kumar Singh,Jing Shi,Trung Bui,Yong Jae Lee,Yuheng Li
発行日 2025-04-29 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク