Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs

要約

マルチモーダル大規模言語モデル (MLLM) は最近、ビジュアル質問応答 (VQA) において有望なゼロショット精度を達成しました。これは、さまざまな下流のアプリケーションやドメインに影響を与える基本的なタスクです。
これらのモデルは広範に使用できる可能性が高いため、さまざまな画像や質問のプロパティを処理する際の限界を調査することが重要です。
この研究では、MLLM が画像内の大きな詳細だけでなく小さな詳細も認識できるかどうかを調査します。
特に、視覚的な質問に答える際のゼロショットの精度は、質問の視覚的な対象のサイズに非常に敏感であり、サイズに応じて最大 46% 低下することを示しています。
さらに、人間の視覚的トリミングによってサイズに対する感度が大幅に軽減されることを観察することで、この効果が因果関係にあることを示しました。
人間によるトリミングの有用性に着想を得て、MLLM のゼロショット パフォーマンスを向上させるための推論時間メカニズムとして、外部位置特定モデルまたは特定の MLLM 自体の決定プロセスを活用する 5 つの自動視覚トリミング方法を提案します。
私たちは、4 つの一般的な VQA データセットと、視覚的な詳細に合わせて調整された VQAv2 データセットのサブセットでその有効性を研究しました。
私たちの調査結果は、細部に敏感な VQA アプリケーションでは MLLM を慎重に使用する必要があり、視覚的なトリミングがゼロショット パフォーマンスを向上させる有望な方向であることを示唆しています。
MLLM の行動のさらなる調査を促進するために、私たちのコードとデータは一般に公開されています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have recently achieved promising zero-shot accuracy on visual question answering (VQA) — a fundamental task affecting various downstream applications and domains. Given the great potential for the broad use of these models, it is important to investigate their limitations in dealing with different image and question properties. In this work, we investigate whether MLLMs can perceive small details as well as large details in images. In particular, we show that their zero-shot accuracy in answering visual questions is very sensitive to the size of the visual subject of the question, declining up to 46% with size. Furthermore, we show that this effect is causal by observing that human visual cropping can significantly mitigate their sensitivity to size. Inspired by the usefulness of human cropping, we then propose five automatic visual cropping methods — leveraging either external localization models or the decision process of the given MLLM itself — as inference time mechanisms to improve the zero-shot performance of MLLMs. We study their effectiveness on four popular VQA datasets, and a subset of the VQAv2 dataset tailored towards fine visual details. Our findings suggest that MLLMs should be used with caution in detail-sensitive VQA applications, and that visual cropping is a promising direction to improve their zero-shot performance. To facilitate further investigation of MLLMs’ behaviors, our code and data are publicly released.

arxiv情報

著者 Jiarui Zhang,Mahyar Khayatkhoei,Prateek Chhikara,Filip Ilievski
発行日 2024-02-12 05:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク