要約
パーソナライズされたMLLMの最近の進歩により、ユーザー固有の概念を効果的にキャプチャすることができ、パーソナライズされた概念の認識とコンテキストキャプションの両方をサポートします。
ただし、人間は通常、オブジェクトと個人間の関係について探求し、推論し、よりパーソナライズされた文脈的理解を達成するために表面レベルの情報を超越します。
このため、既存の方法は3つの主な制限に直面する可能性があります。トレーニングデータには、オブジェクト間の関係が学習できるマルチオブジェクトセットがありません。
限られたトレーニングデータに基づいて、彼らのモデルは異なるパーソナライズされた概念間の関係を見落としており、それらを推論することができません。
彼らの実験は、主に、評価が認識とキャプションのタスクに限定されている単一のパーソナライズされた概念に焦点を当てています。
制限に対処するために、120セットのパーソナライズされた知識で構成されるRegrapという名前の新しいデータセットを提示します。
各セットには、KGSから派生した画像、KGS、およびCOT QAペアが含まれており、より構造化された洗練された推論経路を可能にします。
対応するKGSおよびCOT QAペアで訓練されたMLLMであるRegrap-Llavaを提案します。ここでは、ソフトとハードグラフプロンプトのメソッドがモデルのセマンティックスペース内にKGSを揃えるように設計されています。
多様なタスクタイプを含むRegrapベンチマークを確立します。複数選択、ブランクの充填、真/偽、およびオープンエンドの両方の設定の両方で説明的な質問です。
提案されたベンチマークは、パーソナライズされたMLLMのリレーショナル推論と知識接続機能を評価するように設計されています。
提案されたRegrap-llavaおよびその他の競争力のあるMLLMについて実験を実施します。
結果は、提案されたモデルがパーソナライズされた知識を学習するだけでなく、応答のリレーショナル推論も実行し、競争力と比較してSOTAパフォーマンスを達成することを示しています。
すべてのコードとデータセットは、https://github.com/xyfyyds/regrapでリリースされます。
要約(オリジナル)
Recent advances in personalized MLLMs enable effective capture of user-specific concepts, supporting both recognition of personalized concepts and contextual captioning. However, humans typically explore and reason over relations among objects and individuals, transcending surface-level information to achieve more personalized and contextual understanding. To this end, existing methods may face three main limitations: Their training data lacks multi-object sets in which relations among objects are learnable. Building on the limited training data, their models overlook the relations between different personalized concepts and fail to reason over them. Their experiments mainly focus on a single personalized concept, where evaluations are limited to recognition and captioning tasks. To address the limitations, we present a new dataset named ReGraP, consisting of 120 sets of personalized knowledge. Each set includes images, KGs, and CoT QA pairs derived from the KGs, enabling more structured and sophisticated reasoning pathways. We propose ReGraP-LLaVA, an MLLM trained with the corresponding KGs and CoT QA pairs, where soft and hard graph prompting methods are designed to align KGs within the model’s semantic space. We establish the ReGraP Benchmark, which contains diverse task types: multiple-choice, fill-in-the-blank, True/False, and descriptive questions in both open- and closed-ended settings. The proposed benchmark is designed to evaluate the relational reasoning and knowledge-connection capability of personalized MLLMs. We conduct experiments on the proposed ReGraP-LLaVA and other competitive MLLMs. Results show that the proposed model not only learns personalized knowledge but also performs relational reasoning in responses, achieving the SoTA performance compared with the competitive methods. All the codes and datasets are released at: https://github.com/xyfyyds/ReGraP.
arxiv情報
著者 | Yifan Xiang,Zhenxi Zhang,Bin Li,Yixuan Weng,Shoujun Zhou,Yangfan He,Keqin Li |
発行日 | 2025-05-06 16:00:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google