要約
現在のビジョン言語モデル (VLM) は、視覚的な質問応答を含むさまざまなタスクにわたって優れた能力を示します。
実際のアプリケーションでのユーザー エクスペリエンスを向上させるために、最近の研究では、ユーザーが提供する概念を理解するために VLM パーソナライゼーションが調査されています。
ただし、既存の研究は主に単一概念のパーソナライゼーションに焦点を当てており、複数の概念の存在と相互作用が無視されているため、パーソナライズされた VLM の実世界への適用可能性が制限されています。
この論文では、高品質のマルチコンセプト パーソナライゼーション データセットとともに、MC-LLaVA と呼ばれる最初のマルチコンセプト パーソナライゼーション手法を提案します。
具体的には、MC-LLaVA は、単一のトレーニング ステップに複数のコンセプトを組み込んだ共同トレーニング戦略を使用し、VLM がマルチコンセプトのパーソナライゼーションを正確に実行できるようにします。
共同トレーニングのコストを削減するために、MC-LLaVA は概念トークンの初期化に視覚的なトークン情報を活用し、概念表現を改善し、共同トレーニングを加速します。
マルチコンセプトのパーソナライゼーション研究を推進するために、私たちは高品質のデータセットをさらに提供します。
複数のキャラクターが含まれるさまざまな映画から画像を慎重に収集し、マルチコンセプトの質問と回答のサンプルを手動で生成します。
私たちのデータセットは、多様な映画タイプと質問回答タイプを特徴としています。
私たちは包括的な定性的および定量的実験を実施して、MC-LLaVA が印象的なマルチコンセプトのパーソナライズされた応答を達成できることを実証し、VLM がより優れたユーザー固有のアシスタントになるための道を切り開きます。
コードとデータセットは https://github.com/arctanxarc/MC-LLaVA で公開されます。
要約(オリジナル)
Current vision-language models (VLMs) show exceptional abilities across diverse tasks including visual question answering. To enhance user experience in practical applications, recent studies investigate VLM personalization to understand user-provided concepts. However, existing studies mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits the real-world applicability of personalized VLMs. In this paper, we propose the first multi-concept personalization method named MC-LLaVA along with a high-quality multi-concept personalization dataset. Specifically, MC-LLaVA uses a joint training strategy incorporating multiple concepts in a single training step, allowing VLMs to perform accurately in multi-concept personalization. To reduce the cost of joint training, MC-LLaVA leverages visual token information for concept token initialization, yielding improved concept representation and accelerating joint training. To advance multi-concept personalization research, we further contribute a high-quality dataset. We carefully collect images from various movies that contain multiple characters and manually generate the multi-concept question-answer samples. Our dataset features diverse movie types and question-answer types. We conduct comprehensive qualitative and quantitative experiments to demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA.
arxiv情報
著者 | Ruichuan An,Sihan Yang,Ming Lu,Kai Zeng,Yulin Luo,Ying Chen,Jiajun Cao,Hao Liang,Qi She,Shanghang Zhang,Wentao Zhang |
発行日 | 2024-11-18 16:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google