SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

要約

マルチモーダル大規模言語モデル (MLLM) を実際に適用するには、テキストが豊富なビジュアル コンテンツを理解することが最も重要です。これは、テキストが豊富なシナリオが現実世界に遍在しており、画像内に大量のテキストが埋め込まれていることが特徴であるためです。
最近、優れた多用途性を備えた MLLM の出現により、MLLM に期待できるものの水準が引き上げられています。
ただし、現在の MLLM ベンチマークは主に一般的な視覚的理解力の評価に焦点を当てているため、テキストの多いシナリオでの熟練度はまだ包括的かつ客観的に評価されていません。
この研究では、MLLM の \textbf{テキスト豊富な視覚的理解} を評価するために特別に設計されたベンチマークである SEED-Bench-2-Plus を紹介します。
私たちのベンチマークは、グラフ、マップ、Web の 3 つの広いカテゴリにまたがる、正確な人による注釈が付いた 2.3K の多肢選択式の質問で構成されており、それぞれが現実世界の広範囲のテキストが豊富なシナリオをカバーしています。
これらのカテゴリは、その固有の複雑さと多様性により、現実世界のテキストが豊富な環境を効果的にシミュレートします。
さらに、34 の著名な MLLM (GPT-4V、Gemini-Pro-Vision、Claude-3-Opus を含む) を対象とした徹底的な評価を実施し、テキストが豊富な視覚的理解における MLLM の現在の限界を強調します。
私たちは、私たちの研究が既存の MLLM ベンチマークへの貴重な追加として機能し、洞察力に富んだ観察を提供し、MLLM によるテキストが豊富な視覚的理解の分野でさらなる研究を促すことを願っています。
データセットと評価コードには、https://github.com/AILab-CVC/SEED-Bench からアクセスできます。

要約(オリジナル)

Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating \textbf{text-rich visual comprehension} of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.

arxiv情報

著者 Bohao Li,Yuying Ge,Yi Chen,Yixiao Ge,Ruimao Zhang,Ying Shan
発行日 2024-04-25 17:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク