MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

要約

マルチモーダル大規模言語モデル (MLLM) の包括的な評価は、最近研究コミュニティで幅広い注目を集めています。
しかし、既存のベンチマークには、現実世界でモデルが直面する重大な課題の測定を困難にするいくつかの共通の障壁があることがわかりました。1) データ規模が小さいと、パフォーマンスのばらつきが大きくなります。
2) モデルベースのアノテーションに依存すると、データ品質が制限されます。
3) タスクの難易度が不十分。特に画像解像度が限られていることが原因です。
これらの問題に取り組むために、MME-RealWorld を導入します。
具体的には、公開データセットやインターネットから 300,000 ドルを超える画像を収集し、アノテーション用に 13,366 ドルの高品質画像をフィルタリングしています。
これには、MLLM のプロの $25$ アノテーターと $7$ の専門家の努力が含まれており、$5$ の現実世界のシナリオにわたる $43$ のサブタスクをカバーする $29,429$ の質問と回答のペアに貢献していますが、これは人間にとってさえ非常に困難です。
私たちが知る限り、MME-RealWorld は手動で注釈が付けられたこれまでで最大のベンチマークであり、最高の解像度と現実世界のアプリケーションに重点を置いていることが特徴です。
さらに、GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet など、28 ドルの著名な MLLM を含めた徹底的な評価を実施します。
私たちの結果は、最も先進的なモデルでさえ私たちのベンチマークでは苦戦しており、どれも $60\%$ の精度に達していないことを示しています。
高解像度の画像を認識し、複雑な現実世界のシナリオを理解するという課題は、依然として解決すべき緊急の課題です。
データと評価コードは https://mme-realworld.github.io/ で公開されています。

要約(オリジナル)

Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .

arxiv情報

著者 Yi-Fan Zhang,Huanyu Zhang,Haochen Tian,Chaoyou Fu,Shuangqing Zhang,Junfei Wu,Feng Li,Kun Wang,Qingsong Wen,Zhang Zhang,Liang Wang,Rong Jin,Tieniu Tan
発行日 2024-08-23 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク