NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) の推論機能を理解することは、重要な研究分野です。
この研究では、MLLM の純粋な推論能力を評価する際の既存のギャップに対処することを目的とした動的ベンチマーク NPHardEval4V を紹介します。
私たちのベンチマークは、モデルの全体的なパフォーマンスから画像認識や指示のフォローなどのさまざまな要因の影響を解きほぐし、モデルの推論能力の評価だけに集中できるようにする場を提供することを目的としています。
これは、NPHardEval からの質問のテキスト記述を画像表現に変換することによって構築されます。
私たちの調査結果は、さまざまなモデル間で推論能力に大きな差異があることを明らかにし、推論の点で LLM と比較して MLLM のパフォーマンスが比較的低いことを強調しています。
また、ビジュアル、テキスト、ビジュアルとテキストの組み合わせなど、さまざまなプロンプト スタイルが MLLM の推論能力に及ぼす影響も調査し、モデルのパフォーマンスにおけるマルチモーダル入力のさまざまな影響を実証します。
主に静的評価に焦点を当てた従来のベンチマークとは異なり、私たちのベンチマークは過剰適合を防止し、モデルのより本格的で詳細な評価を保証するために毎月更新されます。
私たちは、このベンチマークが MLLM の推論能力の理解を助け、さらなる発展を導くことができると信じています。
ベンチマーク データセットとコードは https://github.com/lizhouf/NPHardEval4V で入手できます。

要約(オリジナル)

Understanding the reasoning capabilities of Multimodal Large Language Models (MLLMs) is an important area of research. In this study, we introduce a dynamic benchmark, NPHardEval4V, aimed at addressing the existing gaps in evaluating the pure reasoning abilities of MLLMs. Our benchmark aims to provide a venue to disentangle the effect of various factors such as image recognition and instruction following, from the overall performance of the models, allowing us to focus solely on evaluating their reasoning abilities. It is built by converting textual description of questions from NPHardEval to image representations. Our findings reveal significant discrepancies in reasoning abilities across different models and highlight the relatively weak performance of MLLMs compared to LLMs in terms of reasoning. We also investigate the impact of different prompting styles, including visual, text, and combined visual and text prompts, on the reasoning abilities of MLLMs, demonstrating the different impacts of multimodal inputs in model performance. Unlike traditional benchmarks, which focus primarily on static evaluations, our benchmark will be updated monthly to prevent overfitting and ensure a more authentic and fine-grained evaluation of the models. We believe that this benchmark can aid in understanding and guide the further development of reasoning abilities in MLLMs. The benchmark dataset and code are available at https://github.com/lizhouf/NPHardEval4V

arxiv情報

著者 Lizhou Fan,Wenyue Hua,Xiang Li,Kaijie Zhu,Mingyu Jin,Lingyao Li,Haoyang Ling,Jinkui Chi,Jindong Wang,Xin Ma,Yongfeng Zhang
発行日 2024-03-05 18:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク