Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models

要約

マルチモーダル タスクの領域では、ビジュアル 質問応答 (VQA) が、ビジュアル コンテンツに基づいた自然言語の質問に対処することで重要な役割を果たします。
Knowledge-Based Visual Question Answering (KBVQA) は、質問に応答するための画像とともに外部の知識を追加することで、この概念を前進させます。
KBVQA のアプローチを導入し、既存のビジョン言語トランスフォーマー エンコーダー デコーダー (OFA) モデルを強化します。
私たちの主な貢献には、動的なトリプル抽出方法を使用して、ナレッジ グラフから抽出された関連する外部知識を組み込むことで質問を強化することが含まれます。
質問に答えるための要件を満たすように調整された、コンテキストとしてナレッジ グラフから柔軟な数のトリプルを提供します。
知識が豊富に含まれた当社のモデルは、3 つの異なる KBVQA データセットで、完全一致スコアが最先端のものと比べて平均 4.75\% 向上していることを示しています。
実験と分析を通じて、各質問に変数トリプルを提供すると、固定数のトリプルを提供する場合と対照的に、言語モデルの推論能力が向上することが実証されました。
これは、最近の大規模な言語モデルでも例証されています。
さらに、簡単な微調整によって達成された、小規模なデータセットでの SOTA を上回るパフォーマンスを示すことで、モデルの一般化機能を強調します。

要約(オリジナル)

In the realm of multimodal tasks, Visual Question Answering (VQA) plays a crucial role by addressing natural language questions grounded in visual content. Knowledge-Based Visual Question Answering (KBVQA) advances this concept by adding external knowledge along with images to respond to questions. We introduce an approach for KBVQA, augmenting the existing vision-language transformer encoder-decoder (OFA) model. Our main contribution involves enhancing questions by incorporating relevant external knowledge extracted from knowledge graphs, using a dynamic triple extraction method. We supply a flexible number of triples from the knowledge graph as context, tailored to meet the requirements for answering the question. Our model, enriched with knowledge, demonstrates an average improvement of 4.75\% in Exact Match Score over the state-of-the-art on three different KBVQA datasets. Through experiments and analysis, we demonstrate that furnishing variable triples for each question improves the reasoning capabilities of the language model in contrast to supplying a fixed number of triples. This is illustrated even for recent large language models. Additionally, we highlight the model’s generalization capability by showcasing its SOTA-beating performance on a small dataset, achieved through straightforward fine-tuning.

arxiv情報

著者 Manas Jhalani,Annervaz K M,Pushpak Bhattacharyya
発行日 2024-06-14 13:07:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク