Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering

要約

GPT-4o、Gemini、LLaVA、Flamingo などのマルチモーダル大規模言語モデル (MLLM) は、ビジュアル モダリティとテキスト モダリティの統合において大幅な進歩を遂げ、ビジュアル質問応答 (VQA)、画像キャプション、コンテンツ検索などのタスクに優れています。
これらは、画像の一貫した文脈に関連した説明を生成できます。
しかし、特に重なり合う物体や小さな物体を含む複雑なシーンでは、物体を正確に識別して数え、その空間的位置を決定するという課題に依然として直面しています。
これらの制限に対処するために、我々はマルチモーダル検索拡張生成 (RAG) に基づく新しいフレームワークを提案します。このフレームワークは、構造化されたシーン グラフを導入して、画像内のオブジェクト認識、関係性の特定、および空間理解を強化します。
私たちのフレームワークは、特に航空写真やオブジェクトが密に配置されたシーンなど、難しい視点を伴うシナリオで、正確な視覚的説明を必要とするタスクを処理する MLLM の能力を向上させます。
最後に、一人称の視覚的理解に焦点を当てた VG-150 データセットと航空画像を含む AUG データセットで広範な実験を行います。
結果は、私たちのアプローチが VQA タスクにおいて既存の MLLM よりも一貫して優れていることを示しています。これは、さまざまな空間コンテキストにあるオブジェクトの認識、位置特定、定量化において傑出しており、より正確な視覚的説明を提供します。

要約(オリジナル)

Multimodal large language models (MLLMs), such as GPT-4o, Gemini, LLaVA, and Flamingo, have made significant progress in integrating visual and textual modalities, excelling in tasks like visual question answering (VQA), image captioning, and content retrieval. They can generate coherent and contextually relevant descriptions of images. However, they still face challenges in accurately identifying and counting objects and determining their spatial locations, particularly in complex scenes with overlapping or small objects. To address these limitations, we propose a novel framework based on multimodal retrieval-augmented generation (RAG), which introduces structured scene graphs to enhance object recognition, relationship identification, and spatial understanding within images. Our framework improves the MLLM’s capacity to handle tasks requiring precise visual descriptions, especially in scenarios with challenging perspectives, such as aerial views or scenes with dense object arrangements. Finally, we conduct extensive experiments on the VG-150 dataset that focuses on first-person visual understanding and the AUG dataset that involves aerial imagery. The results show that our approach consistently outperforms existing MLLMs in VQA tasks, which stands out in recognizing, localizing, and quantifying objects in different spatial contexts and provides more accurate visual descriptions.

arxiv情報

著者 Junxiao Xue,Quan Deng,Fei Yu,Yanhao Wang,Jun Wang,Yuehua Li
発行日 2024-12-30 13:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク