Generative Multi-Modal Knowledge Retrieval with Large Language Models

要約

マルチモーダル クエリによる知識の検索は、知識集約型のマルチモーダル アプリケーションをサポートする上で重要な役割を果たします。
ただし、既存の方法は、特にマルチモーダル クエリを処理するために複数の取得者をトレーニングおよび統合する場合、有効性とトレーニング効率の点で課題に直面しています。
この論文では、マルチモーダルな知識検索のための革新的なエンドツーエンドの生成フレームワークを提案します。
私たちのフレームワークは、限られたデータでトレーニングした場合でも、大規模言語モデル (LLM) が仮想知識ベースとして効果的に機能できるという事実を利用しています。
私たちは 2 段階のプロセスを通じて知識を取得します。1) クエリに関連する知識の手がかりを生成し、2) 知識の手がかりを使用してデータベースを検索して関連文書を取得します。
特に、マルチグレインの視覚学習をガイドするために、オブジェクトを認識したプレフィックス調整手法を最初に導入します。
次に、マルチグレインの視覚特徴を LLM のテキスト特徴空間に配置し、LLM を使用してクロスモーダル インタラクションをキャプチャします。
続いて、モデル学習用の統一フォーマットの指示データを構築します。
最後に、解読ステップに事前制約を課すことにより、特有の知識手がかりの生成を促進する、知識誘導型生成戦略を提案します。
3 つのベンチマークで実施された実験を通じて、強力なベースラインと比較した場合、すべての評価指標にわたって 3.0% から 14.6% の範囲の大幅な改善が実証されました。

要約(オリジナル)

Knowledge retrieval with multi-modal queries plays a crucial role in supporting knowledge-intensive multi-modal applications. However, existing methods face challenges in terms of their effectiveness and training efficiency, especially when it comes to training and integrating multiple retrievers to handle multi-modal queries. In this paper, we propose an innovative end-to-end generative framework for multi-modal knowledge retrieval. Our framework takes advantage of the fact that large language models (LLMs) can effectively serve as virtual knowledge bases, even when trained with limited data. We retrieve knowledge via a two-step process: 1) generating knowledge clues related to the queries, and 2) obtaining the relevant document by searching databases using the knowledge clue. In particular, we first introduce an object-aware prefix-tuning technique to guide multi-grained visual learning. Then, we align multi-grained visual features into the textual feature space of the LLM, employing the LLM to capture cross-modal interactions. Subsequently, we construct instruction data with a unified format for model training. Finally, we propose the knowledge-guided generation strategy to impose prior constraints in the decoding steps, thereby promoting the generation of distinctive knowledge clues. Through experiments conducted on three benchmarks, we demonstrate significant improvements ranging from 3.0% to 14.6% across all evaluation metrics when compared to strong baselines.

arxiv情報

著者 Xinwei Long,Jiali Zeng,Fandong Meng,Zhiyuan Ma,Kaiyan Zhang,Bowen Zhou,Jie Zhou
発行日 2024-01-16 08:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク