要約
ラージビジョン言語モデル(LVLM)は、個々のユーザーのユニークなニーズや好みに適応することで、パーソナライズされた支援を提供する大きな可能性を秘めている。LVLMのパーソナライゼーションは、特定のオブジェクトインスタンスを認識し、カスタマイズされた応答を提供するためにモデルをカスタマイズすることを含む新しい分野である。しかし、既存のアプローチは、各ユーザとオブジェクトに対して、時間のかかるテスト時間のトレーニングに依存しており、実用的ではない。本論文では、明確な特徴を抽出するために事前に訓練されたビジョン基礎モデル、視覚入力内のインスタンスを認識するための検索拡張生成(RAG)技術、および視覚的プロンプト手法を活用することで、LVLMパーソナライゼーションに対する新しい、訓練不要のアプローチを提案する。我々のモデル非依存型ビジョンツールキットは、大規模な再トレーニングを行うことなく、柔軟かつ効率的なパーソナライゼーションを可能にする。我々は、従来のトレーニングベースのアプローチを凌駕する最先端の結果を実証し、LVLMパーソナライゼーションの新たな標準を確立する。
要約(オリジナル)
Large Vision Language Models (LVLMs) have significant potential to deliver personalized assistance by adapting to individual users’ unique needs and preferences. Personalization of LVLMs is an emerging area that involves customizing models to recognize specific object instances and provide tailored responses. However, existing approaches rely on time-consuming test-time training for each user and object, rendering them impractical. This paper proposes a novel, training-free approach to LVLM personalization by leveraging pre-trained vision foundation models to extract distinct features, retrieval-augmented generation (RAG) techniques to recognize instances in the visual input, and visual prompting methods. Our model-agnostic vision toolkit enables flexible and efficient personalization without extensive retraining. We demonstrate state-of-the-art results, outperforming conventional training-based approaches and establish a new standard for LVLM personalization.
arxiv情報
著者 | Soroush Seifi,Vaggelis Dorovatas,Daniel Olmeda Reino,Rahaf Aljundi |
発行日 | 2025-02-04 16:19:20+00:00 |
arxivサイト | arxiv_id(pdf) |