Uncovering the Full Potential of Visual Grounding Methods in VQA

要約

Visual Question Answering (VQA) の Visual Grounding (VG) メソッドは、質問に関連した視覚情報へのモデルの依存性を強化することで、VQA のパフォーマンスを向上させようとします。
通常、トレーニングやテストでは、視覚入力にそのような関連情報が存在することが想定されます。
しかし、この仮定は、大規模な VQA で一般的な不完全な画像表現を扱う場合には本質的に欠陥があり、視覚的特徴によってもたらされる情報が予想されるグラウンドトゥルースの内容から頻繁に逸脱します。
その結果、VG メソッドのトレーニングとテストは、ほとんど不正確なデータを使用して実行され、潜在的な利点の適切な評価が妨げられます。
この研究では、VG 法の現在の評価スキームには、関連する視覚情報の利用可能性に関する誤った仮定が原因で問題があることを実証します。
私たちの実験では、評価条件を修正すると、これらの方法がさらに効果的になることがわかりました。
コードは GitHub で提供されます。

要約(オリジナル)

Visual Grounding (VG) methods in Visual Question Answering (VQA) attempt to improve VQA performance by strengthening a model’s reliance on question-relevant visual information. The presence of such relevant information in the visual input is typically assumed in training and testing. This assumption, however, is inherently flawed when dealing with imperfect image representations common in large-scale VQA, where the information carried by visual features frequently deviates from expected ground-truth contents. As a result, training and testing of VG-methods is performed with largely inaccurate data, which obstructs proper assessment of their potential benefits. In this study, we demonstrate that current evaluation schemes for VG-methods are problematic due to the flawed assumption of availability of relevant visual information. Our experiments show that these methods can be much more effective when evaluation conditions are corrected. Code is provided on GitHub.

arxiv情報

著者 Daniel Reich,Tanja Schultz
発行日 2024-02-15 14:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク