VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

要約

マルチモーダル大手言語モデル(MLLM)は、視覚情報とテキスト情報を統合するための強力なツールになりました。
視覚的理解ベンチマークに関する並外れたパフォーマンスにもかかわらず、複数の画像を抽象的に推論する能力を測定する能力は依然として重要な課題です。
これに対処するために、MLLMの知覚的理解と抽象的なリレーショナル推論を評価するために設計された大規模でオープンエンドの動的なベンチマークであるVoilaを紹介します。
Voilaは、視覚ドメインで類似のマッピングアプローチを採用しており、事前定義された選択に依存することなく、指定された2つの画像ペア、参照、アプリケーションの類似性を完了する画像を生成するモデルを必要とします。
私たちの実験は、Voilaの類似の推論タスクがMLLMSに課題をもたらすことを示しています。
マルチステップ分析を通じて、現在のMLLMがイメージ間の関係を理解するのに苦労し、高レベルの関係推論に限られた能力を示すことを明らかにします。
特に、パフォーマンスは、最も少ないプロンプトのマルチステップ戦略に従うときに改善されることを観察します。
オープンソースモデルとGPT-4Oの包括的な評価は、テキストベースの回答では、挑戦的なシナリオの最良の精度は13%(Llama 3.2)であり、より単純なタスクでも29%(GPT-4O)であることを示していますが、人間のパフォーマンスは両方の難易度で70%で有意に高いことを示しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have become a powerful tool for integrating visual and textual information. Despite their exceptional performance on visual understanding benchmarks, measuring their ability to reason abstractly across multiple images remains a significant challenge. To address this, we introduce VOILA, a large-scale, open-ended, dynamic benchmark designed to evaluate MLLMs’ perceptual understanding and abstract relational reasoning. VOILA employs an analogical mapping approach in the visual domain, requiring models to generate an image that completes an analogy between two given image pairs, reference and application, without relying on predefined choices. Our experiments demonstrate that the analogical reasoning tasks in VOILA present a challenge to MLLMs. Through multi-step analysis, we reveal that current MLLMs struggle to comprehend inter-image relationships and exhibit limited capabilities in high-level relational reasoning. Notably, we observe that performance improves when following a multi-step strategy of least-to-most prompting. Comprehensive evaluations on open-source models and GPT-4o show that on text-based answers, the best accuracy for challenging scenarios is 13% (LLaMa 3.2) and even for simpler tasks is only 29% (GPT-4o), while human performance is significantly higher at 70% across both difficulty levels.

arxiv情報

著者 Nilay Yilmaz,Maitreya Patel,Yiran Lawrence Luo,Tejas Gokhale,Chitta Baral,Suren Jayasuriya,Yezhou Yang
発行日 2025-03-04 18:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク