要約
VQA のビジュアル グラウンディング (VG) は、質問に関連する画像領域に基づいて回答を推測するモデルの傾向を指します。
概念的には、VG は VQA タスクの公理的な要件として認識されます。
ただし、実際には、DNN ベースの VQA モデルは、標準ベンチマークで明らかなパフォーマンス損失を被ることなく、ショートカット (SC) 学習によって VG をバイパスすることで有名です。
SC 学習の影響を明らかにするために、VG の欠如を低精度で明らかにする分布外 (OOD) テストが提案されています。
以来、これらのテストは VG 研究の中心となり、精度に対する VG の影響に関するさまざまな調査の基礎として機能しました。
ただし、VQA における VG の役割は依然として完全には理解されておらず、まだ適切に定式化されていません。
この研究では、概念的レベルで形式化することで、VQA における VG の役割を明確にしようとします。
我々は、理想的な OOD テストにおける VQA 推論を記述するために VG と Reasoning の概念を使用する「Visually Grounded Reasoning」(VGR) と呼ばれる新しい理論的フレームワークを提案します。
VGR は、VQA における VG の役割に関する基本的な洞察を統合することにより、OOD テストにおける蔓延する VG 関連の SC 悪用を明らかにするのに役立ちます。これにより、VG と OOD 精度の関係を定義することがなぜ困難であったかが説明されます。
最後に、VG の要件を適切に強調する OOD テストを作成するアプローチを提案し、そのパフォーマンスを向上させる方法を示します。
要約(オリジナル)
Visual Grounding (VG) in VQA refers to a model’s proclivity to infer answers based on question-relevant image regions. Conceptually, VG identifies as an axiomatic requirement of the VQA task. In practice, however, DNN-based VQA models are notorious for bypassing VG by way of shortcut (SC) learning without suffering obvious performance losses in standard benchmarks. To uncover the impact of SC learning, Out-of-Distribution (OOD) tests have been proposed that expose a lack of VG with low accuracy. These tests have since been at the center of VG research and served as basis for various investigations into VG’s impact on accuracy. However, the role of VG in VQA still remains not fully understood and has not yet been properly formalized. In this work, we seek to clarify VG’s role in VQA by formalizing it on a conceptual level. We propose a novel theoretical framework called ‘Visually Grounded Reasoning’ (VGR) that uses the concepts of VG and Reasoning to describe VQA inference in ideal OOD testing. By consolidating fundamental insights into VG’s role in VQA, VGR helps to reveal rampant VG-related SC exploitation in OOD testing, which explains why the relationship between VG and OOD accuracy has been difficult to define. Finally, we propose an approach to create OOD tests that properly emphasize a requirement for VG, and show how to improve performance on them.
arxiv情報
著者 | Daniel Reich,Tanja Schultz |
発行日 | 2024-06-26 10:57:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google