DARE: Diverse Visual Question Answering with Robustness Evaluation

要約

ビジョン言語モデル (VLM) は、テキストのみの大規模言語モデルとビジョンのみのモデルの優れた機能を拡張し、マルチモーダルなビジョンテキスト入力から学習して処理することができます。
最新の VLM は、多くの標準的な画像分類タスクや画像とテキストの照合タスクではうまく機能しますが、カウントや空間推論など、多くの重要なビジョン言語 (VL) 推論能力では依然として苦労しています。
さらに、それらは命令や評価プロトコルの小さな変動に対して非常に脆弱である可能性がありますが、既存のベンチマークはその堅牢性 (またはむしろ堅牢性の欠如) を評価できません。
困難な VL シナリオと包括的な堅牢性評価を組み合わせるために、慎重に作成され厳選された複数選択 VQA ベンチマークである DARE (堅牢性評価を備えた Diverse Visual Question Answering) を導入します。
DARE は 5 つの多様なカテゴリで VLM パフォーマンスを評価し、プロンプト、回答オプションのサブセット、出力形式、正解数のバリエーションに基づいた 4 つの堅牢性指向の評価が含まれています。
さまざまな調査結果の中でも、最先端の VLM は依然としてほとんどのカテゴリの問題に苦戦しており、テストされた堅牢性評価全体で一貫して最高のパフォーマンスを提供できていないことを報告します。
オプションのサブセットにわたる最悪の場合のパフォーマンスは、標準ケースのパフォーマンスより最大 34% 低くなります。
LLaVA 1.6 や Idefics2 などのオープンソース VLM の堅牢性は、GPT-4 や Gemini などのクローズドソース モデルに匹敵するものではありませんが、後者でさえ、さまざまなバリエーションに対して非常に脆弱なままです。

要約(オリジナル)

Vision Language Models (VLMs) extend remarkable capabilities of text-only large language models and vision-only models, and are able to learn from and process multi-modal vision-text input. While modern VLMs perform well on a number of standard image classification and image-text matching tasks, they still struggle with a number of crucial vision-language (VL) reasoning abilities such as counting and spatial reasoning. Moreover, while they might be very brittle to small variations in instructions and/or evaluation protocols, existing benchmarks fail to evaluate their robustness (or rather the lack of it). In order to couple challenging VL scenarios with comprehensive robustness evaluation, we introduce DARE, Diverse Visual Question Answering with Robustness Evaluation, a carefully created and curated multiple-choice VQA benchmark. DARE evaluates VLM performance on five diverse categories and includes four robustness-oriented evaluations based on the variations of: prompts, the subsets of answer options, the output format and the number of correct answers. Among a spectrum of other findings, we report that state-of-the-art VLMs still struggle with questions in most categories and are unable to consistently deliver their peak performance across the tested robustness evaluations. The worst case performance across the subsets of options is up to 34% below the performance in the standard case. The robustness of the open-source VLMs such as LLaVA 1.6 and Idefics2 cannot match the closed-source models such as GPT-4 and Gemini, but even the latter remain very brittle to different variations.

arxiv情報

著者 Hannah Sterz,Jonas Pfeiffer,Ivan Vulić
発行日 2024-09-26 16:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク