CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering

要約

最近の視覚言語モデル(VLM)は、視覚理解と推論、特に多肢選択式視覚質問応答(VQA)において顕著な能力を示している。しかし、これらのモデルは、例えば、画像に写っていない物体について質問するような、回答不可能なVQAの質問に対して(誤った)回答を提供するなど、明らかに不自然な誤りを犯すことがある。この問題に対処するために、我々はCLIP-UP: CLIP-based Unanswerable Problem detectionを提案する。CLIP-UPは、回答不可能な質問に対する回答を保留する能力をVLMに装備するための新しい軽量手法である。CLIP-UPは、CLIPを活用して質問と画像のアライメント情報を抽出することで、元のVLMの重みを変えずに、いくつかの追加レイヤーを効率的に学習するだけでよい。LLaVAモデル間でテストした結果、CLIP-UPは多肢選択式VQAにおける解答不能を評価するMM-UPDベンチマークにおいて、他のタスクにおける元の性能を維持したまま、最先端の結果を達成した。

要約(オリジナル)

Recent Vision-Language Models (VLMs) have demonstrated remarkable capabilities in visual understanding and reasoning, and in particular on multiple-choice Visual Question Answering (VQA). Still, these models can make distinctly unnatural errors, for example, providing (wrong) answers to unanswerable VQA questions, such as questions asking about objects that do not appear in the image. To address this issue, we propose CLIP-UP: CLIP-based Unanswerable Problem detection, a novel lightweight method for equipping VLMs with the ability to withhold answers to unanswerable questions. By leveraging CLIP to extract question-image alignment information, CLIP-UP requires only efficient training of a few additional layers, while keeping the original VLMs’ weights unchanged. Tested across LLaVA models, CLIP-UP achieves state-of-the-art results on the MM-UPD benchmark for assessing unanswerability in multiple-choice VQA, while preserving the original performance on other tasks.

arxiv情報

著者 Ben Vardi,Oron Nir,Ariel Shamir
発行日 2025-01-02 17:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク