Personalized Large Vision-Language Models

要約

パーソナライゼーション モデルは、画像生成において大きな注目を集めていますが、ラージ ビジョン言語モデル (LVLM) についてはまだ研究されていません。
一般的なものを超えて、パーソナライゼーションを使用した LVLM は、一般的な形式 (例: 「男の子と女の子が話している」) ではなく、参照概念 (例: 「マイクとスーザンが話している」) を使用して対話型対話を処理します。
会話がよりカスタマイズ可能になり、参照しやすくなります。
さらに、PLVM は、追加コストを発生させることなく対話中に新しいコンセプトを継続的に追加できる機能を備えており、実用性が大幅に向上します。
PLVM は、参照概念をクエリされた画像と位置合わせするための事前トレーニング済みビジュアル エンコーダーである Aligner を提案します。
対話中に、これらの対応する概念を持つ参照画像の特徴を抽出し、クエリされた画像内でそれらを認識し、パーソナライゼーションを可能にします。
アライナーの計算コストとパラメータ数は、フレームワーク全体では無視できるほど小さいことに注意してください。
総合的な定性・定量分析により、PLVMの有効性と優位性を明らかにします。

要約(オリジナル)

The personalization model has gained significant attention in image generation yet remains underexplored for large vision-language models (LVLMs). Beyond generic ones, with personalization, LVLMs handle interactive dialogues using referential concepts (e.g., “Mike and Susan are talking.”) instead of the generic form (e.g., “a boy and a girl are talking.”), making the conversation more customizable and referentially friendly. In addition, PLVM is equipped to continuously add new concepts during a dialogue without incurring additional costs, which significantly enhances the practicality. PLVM proposes Aligner, a pre-trained visual encoder to align referential concepts with the queried images. During the dialogues, it extracts features of reference images with these corresponding concepts and recognizes them in the queried image, enabling personalization. We note that the computational cost and parameter count of the Aligner are negligible within the entire framework. With comprehensive qualitative and quantitative analyses, we reveal the effectiveness and superiority of PLVM.

arxiv情報

著者 Chau Pham,Hoang Phan,David Doermann,Yunjie Tian
発行日 2024-12-23 14:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク