Are We on the Right Way for Evaluating Large Vision-Language Models?

要約

Large Vision-Language Model (LVLM) は最近急速な進歩を遂げ、そのマルチモーダル機能を評価するための数多くの研究が行われています。
ただし、現在の評価作業を詳しく調べて、次の 2 つの主要な問題を特定します。 1) 多くのサンプルにはビジュアル コンテンツが不要です。
答えは、質問と選択肢、または LLM に組み込まれた世界の知識から直接推測できます。
この現象は、現在のベンチマーク全体で広く見られます。
たとえば、GeminiPro は視覚的な入力なしで MMMU ベンチマークで 42.9% を達成し、6 つのベンチマーク全体でランダム選択のベースラインを平均 24% 以上上回っています。
2) LLM および LVLM トレーニングには意図しないデータ漏洩が存在します。
LLM と LVLM は、視覚的なコンテンツがなくても、視覚的に必要ないくつかの質問に答えることができました。これは、大規模なトレーニング データ内でこれらのサンプルが記憶されていることを示しています。
たとえば、Sphinx-X-MoE は、イメージにアクセスせずに MMMU で 43.6% を獲得し、LLM バックボーンの 17.9% を上回ります。
どちらの問題も、実際のマルチモーダルゲインの誤った判断につながり、LVLM の研究を誤った方向に導く可能性があります。
この目的を達成するために、人間が細心の注意を払って選択した 1,500 個のサンプルで構成される、エリートビジョンに不可欠なマルチモーダル ベンチマークである MMStar を紹介します。
MMStar は、6 つのコア機能と 18 の詳細な軸をベンチマークし、慎重にバランスが取れ、精製されたサンプルを使用して LVLM のマルチモーダル能力を評価することを目的としています。
これらのサンプルは、まず自動パイプラインを使用して現在のベンチマークから大まかに選択され、次に人間によるレビューが関与して、厳選された各サンプルが視覚的な依存性を示し、データ漏洩が最小限に抑えられ、高度なマルチモーダル機能が必要であることを確認します。
さらに、マルチモーダル トレーニングにおけるデータ漏洩と実際のパフォーマンスの向上を測定する 2 つの指標が開発されています。
MMStar で 16 の主要な LVLM を評価してマルチモーダル機能を評価し、提案された指標を使用して 7 つのベンチマークでデータ漏洩と実際のマルチモーダル ゲインを調査します。

要約(オリジナル)

Large vision-language models (LVLMs) have recently achieved rapid progress, sparking numerous studies to evaluate their multi-modal capabilities. However, we dig into current evaluation works and identify two primary issues: 1) Visual content is unnecessary for many samples. The answers can be directly inferred from the questions and options, or the world knowledge embedded in LLMs. This phenomenon is prevalent across current benchmarks. For instance, GeminiPro achieves 42.9% on the MMMU benchmark without any visual input, and outperforms the random choice baseline across six benchmarks over 24% on average. 2) Unintentional data leakage exists in LLM and LVLM training. LLM and LVLM could still answer some visual-necessary questions without visual content, indicating the memorizing of these samples within large-scale training data. For example, Sphinx-X-MoE gets 43.6% on MMMU without accessing images, surpassing its LLM backbone with 17.9%. Both problems lead to misjudgments of actual multi-modal gains and potentially misguide the study of LVLM. To this end, we present MMStar, an elite vision-indispensable multi-modal benchmark comprising 1,500 samples meticulously selected by humans. MMStar benchmarks 6 core capabilities and 18 detailed axes, aiming to evaluate LVLMs’ multi-modal capacities with carefully balanced and purified samples. These samples are first roughly selected from current benchmarks with an automated pipeline, human review is then involved to ensure each curated sample exhibits visual dependency, minimal data leakage, and requires advanced multi-modal capabilities. Moreover, two metrics are developed to measure data leakage and actual performance gain in multi-modal training. We evaluate 16 leading LVLMs on MMStar to assess their multi-modal capabilities, and on 7 benchmarks with the proposed metrics to investigate their data leakage and actual multi-modal gain.

arxiv情報

著者 Lin Chen,Jinsong Li,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Zehui Chen,Haodong Duan,Jiaqi Wang,Yu Qiao,Dahua Lin,Feng Zhao
発行日 2024-04-09 15:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク