要約
大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモーダルLLMS(MLLMS)の機能を大幅に強化しました。
ただし、ユーザー固有の知識の欠如は、依然として人間の日常生活における適用を制限しています。
この論文では、MLLMSのパーソナライズのための検索拡張パーソナライズ(RAP)フレームワークを紹介します。
一般的なMLLMから始めて、3つのステップでパーソナライズされたアシスタントに変えます。
(a)覚えておいてください:ユーザー関連の情報、例えばユーザーの名前、アバター、その他の属性を保存するために、キー価値データベースを設計します。
(b)取得:ユーザーが会話を開始すると、RAPはマルチモーダルレトリバーを使用してデータベースから関連情報を取得します。
(c)生成:入力クエリと取得概念の情報は、MLLMに供給され、パーソナライズされた知識補助応答を生成します。
以前の方法とは異なり、RAPは外部データベースを更新することでリアルタイムのコンセプト編集を許可します。
ユーザー固有の情報との生成品質と調整をさらに向上させるために、データ収集のパイプラインを設計し、MLLMSのパーソナライズされたトレーニング用の専門データセットを作成します。
データセットに基づいて、パーソナライズされたマルチモーダルアシスタントとして一連のMLLMをトレーニングします。
大規模なデータセットを事前に削除することにより、RAP-MLLMSは、追加の微調整なしで無限の視覚概念に一般化できます。
私たちのモデルは、パーソナライズされた画像キャプション、質問の回答、視覚認識など、さまざまなタスクにわたって優れた柔軟性と生成品質を示しています。
コード、データ、モデルは、https://hoar012.github.io/rap-project/で入手できます。
要約(オリジナル)
The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human’s daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs’ personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user’s name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts’ information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://hoar012.github.io/RAP-Project/.
arxiv情報
著者 | Haoran Hao,Jiaming Han,Changsheng Li,Yu-Feng Li,Xiangyu Yue |
発行日 | 2025-03-28 17:28:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google