MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks

要約

マルチモーダル大規模言語モデル (MLLM) の人気により、これらのモデルの評価に特化した研究活動が最近急増しています。
それにもかかわらず、MLLM の既存の評価研究は主に単峰性 (視覚) コンテンツの理解と推論に焦点を当てており、多峰性 (視覚と言語) のコンテンツ理解の領域におけるパフォーマンス評価を無視しています。
マルチモーダルな推論を超えて、マルチモーダルなコンテンツの理解に関連するタスクでは、マルチモーダルなコンテキストを深く理解する必要があり、これは最終的な答えを得るためにマルチモーダルな相互作用を通じて達成されます。
このペーパーでは、MM-BigBench と呼ばれる包括的な評価フレームワークを紹介します。このフレームワークには、さまざまなメトリクスが組み込まれており、さまざまなマルチモーダルなコンテンツ理解タスクの幅広い範囲にわたるさまざまなモデルと命令のパフォーマンスの広範な評価が提供されます。
その結果、私たちの研究は、マルチモーダル理解タスクにおける MLLM のパフォーマンスに関する研究を補完し、MLLM のより包括的かつ全体的な評価を達成します。
まず、ベスト パフォーマンス メトリクスを使用して、さまざまなデータセットにおける各モデルのパフォーマンスの上限を確認します。
続いて、平均相対ゲイン メトリックはさまざまなモデルと命令の全体的なパフォーマンスの評価を提供し、安定性メトリックはそれらの感度を測定します。
さらに、これまでの研究はモデルを独立して評価すること、または命令のみを評価することに重点が置かれており、モデルと命令の間の適応性は無視されています。
モデルと命令の間の適応性を定量化するために、適応性メトリックを提案します。
私たちの論文では、6 つのタスクにわたる 14 のマルチモーダル データセットで合計 20 の言語モデル (14 MLLM) を評価し、タスクごとに 10 の命令を使用して、新しい洞察を導き出します。
コードは https://github.com/declare-lab/MM-BigBench でリリースされます。

要約(オリジナル)

The popularity of multimodal large language models (MLLMs) has triggered a recent surge in research efforts dedicated to evaluating these models. Nevertheless, existing evaluation studies of MLLMs primarily focus on the comprehension and reasoning of unimodal (vision) content, neglecting performance evaluations in the domain of multimodal (vision-language) content understanding. Beyond multimodal reasoning, tasks related to multimodal content comprehension necessitate a profound understanding of multimodal contexts, achieved through the multimodal interaction to obtain a final answer. In this paper, we introduce a comprehensive assessment framework called MM-BigBench, which incorporates a diverse range of metrics to offer an extensive evaluation of the performance of various models and instructions across a wide spectrum of diverse multimodal content comprehension tasks. Consequently, our work complements research on the performance of MLLMs in multimodal comprehension tasks, achieving a more comprehensive and holistic evaluation of MLLMs. To begin, we employ the Best Performance metric to ascertain each model’s performance upper bound on different datasets. Subsequently, the Mean Relative Gain metric offers an assessment of the overall performance of various models and instructions, while the Stability metric measures their sensitivity. Furthermore, previous research centers on evaluating models independently or solely assessing instructions, neglecting the adaptability between models and instructions. We propose the Adaptability metric to quantify the adaptability between models and instructions. Our paper evaluates a total of 20 language models (14 MLLMs) on 14 multimodal datasets spanning 6 tasks, with 10 instructions for each task, and derives novel insights. Our code will be released at https://github.com/declare-lab/MM-BigBench.

arxiv情報

著者 Xiaocui Yang,Wenfang Wu,Shi Feng,Ming Wang,Daling Wang,Yang Li,Qi Sun,Yifei Zhang,Xiaoming Fu,Soujanya Poria
発行日 2023-10-13 11:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク