Visual Robustness Benchmark for Visual Question Answering (VQA)

要約

Visual Question Answering (VQA) システムは、現実世界に導入した場合と同様に機能しますか?
それとも、現実的な破損の影響を受けやすいのでしょうか。
画像のぼやけは、医療用 VQA などの機密性の高いアプリケーションでは悪影響を及ぼす可能性がありますか?
言語的またはテキストの堅牢性は VQA 文献で徹底的に研究されていますが、VQA モデルの視覚的な堅牢性についてはまだ重要な研究が行われていません。
我々は、213,000 の拡張画像で構成される最初の大規模ベンチマークを提案し、複数の VQA モデルの視覚的堅牢性に挑戦し、現実的な視覚的破損の強度を評価します。
さらに、統合メトリックに集約してさまざまなユースケースに合わせて調整できる、いくつかの堅牢性評価メトリックを設計しました。
私たちの実験により、モデルのサイズ、パフォーマンス、および視覚的な破損との堅牢性の間の関係についていくつかの洞察が明らかになりました。
私たちのベンチマークは、堅牢性を損なうことなくモデルのパフォーマンスを考慮した、モデル開発におけるバランスのとれたアプローチの必要性を強調しています。

要約(オリジナル)

Can Visual Question Answering (VQA) systems perform just as well when deployed in the real world? Or are they susceptible to realistic corruption effects e.g. image blur, which can be detrimental in sensitive applications, such as medical VQA? While linguistic or textual robustness has been thoroughly explored in the VQA literature, there has yet to be any significant work on the visual robustness of VQA models. We propose the first large-scale benchmark comprising 213,000 augmented images, challenging the visual robustness of multiple VQA models and assessing the strength of realistic visual corruptions. Additionally, we have designed several robustness evaluation metrics that can be aggregated into a unified metric and tailored to fit a variety of use cases. Our experiments reveal several insights into the relationships between model size, performance, and robustness with the visual corruptions. Our benchmark highlights the need for a balanced approach in model development that considers model performance without compromising the robustness.

arxiv情報

著者 Md Farhan Ishmam,Ishmam Tashdeed,Talukder Asir Saadat,Md Hamjajul Ashmafee,Abu Raihan Mostofa Kamal,Md. Azam Hossain
発行日 2024-10-01 15:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク