MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

要約

物体、シーン、または状況を比較する能力は、日常生活における効果的な意思決定と問題解決に不可欠です。
たとえば、リンゴの鮮度を比較することで食料品の買い物の際により良い選択ができるようになり、ソファのデザインを比較することで生活空間の美観を最適化することができます。
その重要性にもかかわらず、汎用人工知能 (AGI) における比較機能はほとんど解明されていません。
このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の比較推論能力を評価するために設計されたベンチマークである MLLM-CompBench を紹介します。
MLLM-CompBench は、視覚的属性、存在、状態、感情、時間性、空間性、量、質という相対比較の 8 つの側面をカバーする視覚指向の質問を通じて画像をマイニングし、ペアにします。
当社は、さまざまな視覚データセットからのメタデータと CLIP 類似性スコアを使用して、約 40,000 枚の画像ペアのコレクションを厳選しています。
これらの画像ペアは、動物、ファッション、スポーツ、屋外と屋内の両方のシーンを含む幅広い視覚領域に及びます。
質問は 2 つの画像間の相対的な特徴を識別するために慎重に作成されており、正確さと関連性のために人間のアノテーターによってラベルが付けられます。
MLLM-CompBench を使用して、GPT-4V(ision)、Gemini-Pro、LLaVA-1.6 などの最近の MLLM を評価します。
私たちの結果は、彼らの比較能力における顕著な欠点を明らかにしました。
私たちは、MLLM-COMPBENCH がこれらの制限に光を当てるだけでなく、MLLM の比較能力を将来強化するための強固な基盤を確立すると信じています。

要約(オリジナル)

The ability to compare objects, scenes, or situations is crucial for effective decision-making and problem-solving in everyday life. For instance, comparing the freshness of apples enables better choices during grocery shopping while comparing sofa designs helps optimize the aesthetics of our living space. Despite its significance, the comparative capability is largely unexplored in artificial general intelligence (AGI). In this paper, we introduce MLLM-CompBench, a benchmark designed to evaluate the comparative reasoning capability of multimodal large language models (MLLMs). MLLM-CompBench mines and pairs images through visually oriented questions covering eight dimensions of relative comparison: visual attribute, existence, state, emotion, temporality, spatiality, quantity, and quality. We curate a collection of around 40K image pairs using metadata from diverse vision datasets and CLIP similarity scores. These image pairs span a broad array of visual domains, including animals, fashion, sports, and both outdoor and indoor scenes. The questions are carefully crafted to discern relative characteristics between two images and are labeled by human annotators for accuracy and relevance. We use MLLM-CompBench to evaluate recent MLLMs, including GPT-4V(ision), Gemini-Pro, and LLaVA-1.6. Our results reveal notable shortcomings in their comparative abilities. We believe MLLM-COMPBENCH not only sheds light on these limitations but also establishes a solid foundation for future enhancements in the comparative capability of MLLMs.

arxiv情報

著者 Jihyung Kil,Zheda Mai,Justin Lee,Zihe Wang,Kerrie Cheng,Lemeng Wang,Ye Liu,Arpita Chowdhury,Wei-Lun Chao
発行日 2025-01-13 05:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク