MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective

要約

大規模マルチモーダル モデル (LMM) は、顕著な機能を実証しています。
LMM を評価するための既存のベンチマークは主に画像理解に焦点を当てていますが、画像生成の観点から LMM を評価する作品はほとんどありません。
この問題に対処するために、私たちは簡単な自動評価パイプラインを提案します。
具体的には、このパイプラインでは、LMM が指定された入力画像から画像プロンプトを生成する必要があります。
その後、テキストから画像への生成モデルを使用して、生成されたプロンプトに基づいて新しい画像を作成します。
最後に、元の画像と生成された画像を比較することで、LMM のパフォーマンスを評価します。
さらに、13 の異なる画像パターンにわたって LMM を評価するために開発された包括的なベンチマークである MMGenBench-Test と、生成画像ドメイン内の LMM のパフォーマンス評価を対象とした MMGenBench-Domain を紹介します。
50 を超える人気のある LMM を含む徹底的な評価により、パイプラインとベンチマークの両方における有効性と信頼性が実証されています。
私たちの観察によると、既存のベンチマークで優れている多くの LMM は、画像の理解と記述に関連する基本的なタスクを適切に完了できていないことがわかります。
この発見は、現在の LMM のパフォーマンス向上の大きな可能性を強調し、将来のモデル最適化への道を示唆しています。
同時に、当社のパイプラインは、画像入力のみを使用して、さまざまなドメインにわたる LMM のパフォーマンスの効率的な評価を促進します。

要約(オリジナル)

Large Multimodal Models (LMMs) have demonstrated remarkable capabilities. While existing benchmarks for evaluating LMMs mainly focus on image comprehension, few works evaluate them from the image generation perspective. To address this issue, we propose a straightforward automated evaluation pipeline. Specifically, this pipeline requires LMMs to generate an image-prompt from a given input image. Subsequently, it employs text-to-image generative models to create a new image based on these generated prompts. Finally, we evaluate the performance of LMMs by comparing the original image with the generated one. Furthermore, we introduce MMGenBench-Test, a comprehensive benchmark developed to evaluate LMMs across 13 distinct image patterns, and MMGenBench-Domain, targeting the performance evaluation of LMMs within the generative image domain. A thorough evaluation involving over 50 popular LMMs demonstrates the effectiveness and reliability in both the pipeline and benchmark. Our observations indicate that numerous LMMs excelling in existing benchmarks fail to adequately complete the basic tasks, related to image understanding and description. This finding highlights the substantial potential for performance improvement in current LMMs and suggests avenues for future model optimization. Concurrently, our pipeline facilitates the efficient assessment of LMMs performance across diverse domains by using solely image inputs.

arxiv情報

著者 Hailang Huang,Yong Wang,Zixuan Huang,Huaqiu Li,Tongwen Huang,Xiangxiang Chu,Richong Zhang
発行日 2024-11-21 12:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク