Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

要約

Web スクリーンショットやポスターなどとして一般的に見られるマルチパネル画像は、私たちの日常生活に浸透しています。
これらの画像は、異なるレイアウトで複数の部分図を構成することを特徴としており、人々に効果的に情報を伝えます。
複雑なシーンを理解し、Web ページ内を移動するエージェントなど、高度なマルチモーダル AI アプリケーションを構築するには、マルチパネルの視覚的推論のスキルが不可欠であり、この点でのモデルの包括的な評価が重要です。
そこで、Multipanel Visual Question Answering (MultipanelVQA) を導入します。これは、マルチパネル画像を理解する際に特にモデルに課題を与える、質問、回答、およびマルチパネル画像の 6,600 のトリプレットで構成される新しいベンチマークです。
私たちの評価では、MultipanelVQA ベンチマークの質問は、人間がこれらの質問に対して約 99% の精度を達成できるにもかかわらず、テストされた最先端のマルチモーダル大規模言語モデル (MLLM) に対して重大な課題を提示していることがわかりました。
特徴的なのは、MultipanelVQA ベンチマークは、MLLM のマルチパネル画像理解能力に対するレイアウトなどのさまざまな要因の影響を分離して評価するために特別に作成された、合成的に生成されたマルチパネル画像を特徴としています。
その結果、マルチパネル画像を理解する際の MLLM の機能のベンチマークに加えて、合成データを使用して MLLM のパフォーマンスに影響を与えるマルチパネル画像のさまざまな要因を分析し、強化のための洞察を提供します。
コードとデータは https://sites.google.com/view/multipanelvqa/home で公開されています。

要約(オリジナル)

Multipanel images, commonly seen as web screenshots, posters, etc., pervade our daily lives. These images, characterized by their composition of multiple subfigures in distinct layouts, effectively convey information to people. Toward building advanced multimodal AI applications, such as agents that understand complex scenes and navigate through webpages, the skill of multipanel visual reasoning is essential, and a comprehensive evaluation of models in this regard is important. Therefore, we introduce Multipanel Visual Question Answering (MultipanelVQA), a novel benchmark comprising 6,600 triplets of questions, answers, and multipanel images that specifically challenge models in comprehending multipanel images. Our evaluation shows that questions in the MultipanelVQA benchmark pose significant challenges to the state-of-the-art Multimodal Large Language Models (MLLMs) tested, even though humans can attain approximately 99% accuracy on these questions. Distinctively, the MultipanelVQA benchmark features synthetically generated multipanel images specifically crafted to isolate and assess the impact of various factors, such as the layout, on MLLMs’ multipanel image comprehension abilities. As a result, in addition to benchmarking the capabilities of MLLMs in understanding multipanel images, we analyze various factors of the multipanel image that affect MLLMs’ performance with synthetic data and offer insights for enhancement. Code and data are released at https://sites.google.com/view/multipanelvqa/home.

arxiv情報

著者 Yue Fan,Jing Gu,Kaiwen Zhou,Qianqi Yan,Shan Jiang,Ching-Chen Kuo,Xinze Guan,Xin Eric Wang
発行日 2024-06-27 15:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク