要約
検索拡張生成 (RAG) は、外部知識を組み込んで大規模言語モデル (LLM) を強化し、精度が向上し幻覚が軽減されたコンテキスト内の応答を生成します。
ただし、マルチモーダル RAG システムは、次のような特有の課題に直面しています。(i) 検索プロセスでは、ユーザーのクエリに無関係なエントリ (画像、ドキュメントなど) が選択される可能性がある、(ii) ビジョン言語モデルまたは GPT-4o のようなマルチモーダル言語モデル
これらのエントリを処理して RAG 出力を生成するときに幻覚が現れる可能性があります。
この論文では、最初の課題、つまりマルチモーダル RAG の検索フェーズにおける知識ベースからの関連コンテキストの選択を改善することに取り組むことを目的としています。
具体的には、RAG パフォーマンスを評価するために以前の研究で設計した関連性スコア (RS) 尺度を利用して、検索プロセスでより関連性の高いエントリを選択します。
埋め込み (CLIP ベースの埋め込みなど) とコサイン類似性に基づく検索は、通常、特にマルチモーダル データの場合はパフォーマンスが低くなります。
より高度な関連性の尺度を使用することで、知識ベースからより関連性の高い部分を選択することで検索プロセスを強化し、固定数ではなく最大 $k$ のエントリを適応的に選択することで無関係な部分をコンテキストから削除できることを示します。
のエントリー。
COCO データセットを使用した評価では、関連するコンテキストの選択と生成された応答の精度が大幅に向上していることが実証されました。
要約(オリジナル)
Retrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating external knowledge to generate a response within a context with improved accuracy and reduced hallucinations. However, multi-modal RAG systems face unique challenges: (i) the retrieval process may select irrelevant entries to user query (e.g., images, documents), and (ii) vision-language models or multi-modal language models like GPT-4o may hallucinate when processing these entries to generate RAG output. In this paper, we aim to address the first challenge, i.e, improving the selection of relevant context from the knowledge-base in retrieval phase of the multi-modal RAG. Specifically, we leverage the relevancy score (RS) measure designed in our previous work for evaluating the RAG performance to select more relevant entries in retrieval process. The retrieval based on embeddings, say CLIP-based embedding, and cosine similarity usually perform poorly particularly for multi-modal data. We show that by using a more advanced relevancy measure, one can enhance the retrieval process by selecting more relevant pieces from the knowledge-base and eliminate the irrelevant pieces from the context by adaptively selecting up-to-$k$ entries instead of fixed number of entries. Our evaluation using COCO dataset demonstrates significant enhancement in selecting relevant context and accuracy of the generated response.
arxiv情報
著者 | Matin Mortaheb,Mohammad A. Amir Khojastepour,Srimat T. Chakradhar,Sennur Ulukus |
発行日 | 2025-01-08 18:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google