要約
ベンチマークにおけるマルチモーダル大規模言語モデル (MLLM) の進歩と目覚ましいパフォーマンスにもかかわらず、ベンチマークの対象範囲が限られているため、実世界のロングコンテキストおよびマルチイメージのタスクにおけるその有効性は不明瞭です。
既存のベンチマークは、単一画像と短いテキストのサンプルに焦点を当てていることが多く、複数画像のタスクを評価する場合、画像数を制限するか、特定のタスク (時系列キャプションなど) に焦点を当てているため、MLLM のパフォーマンス上の課題が見えにくくなる可能性があります。
これらの制限に対処するために、MLLM の MultImodal Long-contExt 機能をテストするために設計された先駆的なベンチマークである MileBench を導入します。
このベンチマークは、マルチモーダルな長いコンテキストだけでなく、理解と生成の両方を必要とする複数のタスクで構成されています。
私たちは、MLLM の長いコンテキストの適応能力と、長いコンテキストのシナリオでタスクを完了する能力を体系的に評価するために、診断的および現実的な 2 つの異なる評価セットを確立します。
22 のモデルをテストして得られた実験結果では、クローズドソースの GPT-4o は他のモデルより優れているものの、ほとんどのオープンソースの MLLM はロングコンテキストの状況では苦戦していることが明らかになりました。
興味深いことに、画像の数が増えると、パフォーマンスの差が広がる傾向があります。
特に複数の画像を含むシナリオにおいて、MLLM のロングコンテキスト機能の強化に向けた研究努力を強化することを強く推奨します。
要約(オリジナル)
Despite the advancements and impressive performance of Multimodal Large Language Models (MLLMs) on benchmarks, their effectiveness in real-world, long-context, and multi-image tasks is unclear due to the benchmarks’ limited scope. Existing benchmarks often focus on single-image and short-text samples, and when assessing multi-image tasks, they either limit the image count or focus on specific task (e.g time-series captioning), potentially obscuring the performance challenges of MLLMs. To address these limitations, we introduce MileBench, a pioneering benchmark designed to test the MultImodal Long-contExt capabilities of MLLMs. This benchmark comprises not only multimodal long contexts, but also multiple tasks requiring both comprehension and generation. We establish two distinct evaluation sets, diagnostic and realistic, to systematically assess MLLMs’ long-context adaptation capacity and their ability to complete tasks in long-context scenarios. Our experimental results, obtained from testing 22 models, revealed that while the closed-source GPT-4o outperforms others, most open-source MLLMs struggle in long-context situations. Interestingly, the performance gap tends to widen with an increase in the number of images. We strongly encourage an intensification of research efforts towards enhancing MLLMs’ long-context capabilities, especially in scenarios involving multiple images.
arxiv情報
著者 | Dingjie Song,Shunian Chen,Guiming Hardy Chen,Fei Yu,Xiang Wan,Benyou Wang |
発行日 | 2024-05-15 05:43:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google