MyVLM: Personalizing VLMs for User-Specific Queries

要約

最近の大規模ビジョン言語モデル (VLM) は、視覚コンテンツのテキスト説明を理解して生成する際に優れた機能を実証しました。
ただし、これらのモデルにはユーザー固有の概念が理解されていません。
この取り組みでは、VLM のパーソナライゼーションへの第一歩を踏み出し、VLM がユーザーが提供する概念を学習して推論できるようにします。
たとえば、これらのモデルが画像内のあなたを認識し、あなたの個人的な経験や人間関係を反映するようにモデルを調整して、あなたが何をしているかを伝えることを学習できるかどうかを調査します。
さまざまなユーザー固有のコンセプトを効果的に認識するために、モデルのトグルとして機能する外部コンセプト ヘッドで VLM を強化し、VLM が特定の画像内の特定のターゲット コンセプトの存在を識別できるようにします。
概念を認識したら、VLM の中間特徴空間に埋め込まれた新しい概念を学びます。
この埋め込みには、生成された応答にターゲットの概念が自然に統合されるように言語モデルをガイドする役割があります。
私たちは、パーソナライズされた画像キャプションを作成するために私たちの技術を BLIP-2 と LLaVA に適用し、さらにパーソナライズされた視覚的な質問応答への適用性を示します。
私たちの実験は、無関係な入力に対するモデルの動作を維持しながら、学習した概念の目に見えないイメージを一般化する能力を実証しています。

要約(オリジナル)

Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

arxiv情報

著者 Yuval Alaluf,Elad Richardson,Sergey Tulyakov,Kfir Aberman,Daniel Cohen-Or
発行日 2024-03-21 17:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク