Convincing Rationales for Visual Question Answering Reasoning

要約

Visual Question Answering (VQA) は、画像の内容に関する質問に対する答えを予測するという難しいタスクです。
質問文と視覚的なイメージの両方を深く理解する必要があります。
従来の研究では、予測された回答の精度を単純に計算することによって、回答モデルを直接評価していました。
しかし、このような「ブラックボックス」システムでは、予測の背後にある内部の推論は無視され、予測が信頼できるかどうかさえわかりません。
場合によっては、モデルが無関係な視覚領域やテキスト トークンに焦点を当てている場合でも、依然として正しい答えが得られるため、モデルの信頼性が低く非論理的になります。
与えられた画像と質問のペアに対する予測された答えの横に視覚的根拠とテキスト根拠の両方を生成するために、VQA、CRVQA の説得力のある根拠を提案します。
新しい出力によってもたらされる追加のアノテーションを考慮して、{CRVQA} は、いくつかの既存の VQA データセットとその視覚ラベルから変換されたサンプルによってトレーニングおよび評価されます。
広範な実験により、視覚的およびテキストの理論的根拠が答えの予測をサポートし、精度がさらに向上することが実証されました。
さらに、{CRVQA} は、ゼロショット評価設定で汎用 VQA データセット上で競争力のあるパフォーマンスを実現します。
データセットとソースコードは https://github.com/lik1996/CRVQA2024 でリリースされます。

要約(オリジナル)

Visual Question Answering (VQA) is a challenging task of predicting the answer to a question about the content of an image. It requires deep understanding of both the textual question and visual image. Prior works directly evaluate the answering models by simply calculating the accuracy of the predicted answers. However, the inner reasoning behind the prediction is disregarded in such a ‘black box’ system, and we do not even know if one can trust the predictions. In some cases, the models still get the correct answers even when they focus on irrelevant visual regions or textual tokens, which makes the models unreliable and illogical. To generate both visual and textual rationales next to the predicted answer to the given image/question pair, we propose Convincing Rationales for VQA, CRVQA. Considering the extra annotations brought by the new outputs, {CRVQA} is trained and evaluated by samples converted from some existing VQA datasets and their visual labels. The extensive experiments demonstrate that the visual and textual rationales support the prediction of the answers, and further improve the accuracy. Furthermore, {CRVQA} achieves competitive performance on generic VQA datatsets in the zero-shot evaluation setting. The dataset and source code will be released under https://github.com/lik1996/CRVQA2024.

arxiv情報

著者 Kun Li,George Vosselman,Michael Ying Yang
発行日 2024-02-06 11:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク