SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLM

要約

Vision-extended LLM は、Visual Question Answering (VQA) において大きな進歩を遂げました。
これらの進歩にもかかわらず、VLLM は依然としてロングテール エンティティを含むクエリを処理する際に大きな困難に直面しており、誤った応答や幻覚的な応答を生成する傾向があります。
この作業では、エンティティ中心の VQA 向けに特別に調整された \textbf{SnapNTell} という名前の新しい評価ベンチマークを導入します。
このタスクの目的は、エンティティを識別し、エンティティ固有の詳細な知識を提供するモデルの機能をテストすることです。
私たちは、従来の VQA データセットとは異なる \textbf{SnapNTell データセット} を開発しました。(1) 広範囲に分類されたエンティティが含まれており、それぞれが画像で表され、回答内で明示的に名前が付けられています。
(2) 正確な回答を得るために豊富な知識を必要とするQAペアが特徴です。
データセットは 22 の主要カテゴリに編成されており、合計 7,568 の一意のエンティティが含まれています。
エンティティごとに、10 枚のイラスト画像を厳選し、知識を集約した 10 組の QA ペアを作成しました。
この新しいタスクに対処するために、私たちはスケーラブルで効率的かつ透過的な検索拡張マルチモーダル LLM を考案しました。
私たちのアプローチは、SnapNTell データセットに対する既存の手法を大幅に上回り、BELURT スコアで 66.5% の改善を達成しました。
間もなく、データセットとソースコードを一般公開する予定です。

要約(オリジナル)

Vision-extended LLMs have made significant strides in Visual Question Answering (VQA). Despite these advancements, VLLMs still encounter substantial difficulties in handling queries involving long-tail entities, with a tendency to produce erroneous or hallucinated responses. In this work, we introduce a novel evaluative benchmark named \textbf{SnapNTell}, specifically tailored for entity-centric VQA. This task aims to test the models’ capabilities in identifying entities and providing detailed, entity-specific knowledge. We have developed the \textbf{SnapNTell Dataset}, distinct from traditional VQA datasets: (1) It encompasses a wide range of categorized entities, each represented by images and explicitly named in the answers; (2) It features QA pairs that require extensive knowledge for accurate responses. The dataset is organized into 22 major categories, containing 7,568 unique entities in total. For each entity, we curated 10 illustrative images and crafted 10 knowledge-intensive QA pairs. To address this novel task, we devised a scalable, efficient, and transparent retrieval-augmented multimodal LLM. Our approach markedly outperforms existing methods on the SnapNTell dataset, achieving a 66.5\% improvement in the BELURT score. We will soon make the dataset and the source code publicly accessible.

arxiv情報

著者 Jielin Qiu,Andrea Madotto,Zhaojiang Lin,Paul A. Crook,Yifan Ethan Xu,Xin Luna Dong,Christos Faloutsos,Lei Li,Babak Damavandi,Seungwhan Moon
発行日 2024-03-07 18:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク