要約
大規模な視覚言語モデル (VLM) の調整機能を評価することは、役立つアシスタントとしての有効性を判断するために不可欠です。
ただし、既存のベンチマークは主に、はい/いいえや多肢選択式の質問など、非言語的な方法を使用した基本的な能力に焦点を当てています。
このペーパーでは、中国の新興 VLM 向けに特別に設計された包括的な調整ベンチマークである AlignMMBench を紹介することで、このギャップに対処します。
このベンチマークは、現実世界のシナリオと中国のインターネット ソースから細心の注意を払って精選されており、3 つのカテゴリにわたる 13 の特定のタスクを網羅しており、シングル ターンとマルチ ターンの両方の対話シナリオが含まれています。
AlignMMBench にはプロンプト書き換え戦略が組み込まれており、1,054 枚の画像と 4,978 個の質問と回答のペアが含まれています。
評価パイプラインを容易にするために、GPT-4 の評価能力を超えるルール調整された評価器である CritiqueVLM を提案します。
最後に、AlignMMBench 上の代表的な VLM のパフォーマンスを報告し、さまざまな VLM アーキテクチャの機能と制限についての洞察を提供します。
すべての評価コードとデータは https://alignmmbench.github.io で入手できます。
要約(オリジナル)
Evaluating the alignment capabilities of large Vision-Language Models (VLMs) is essential for determining their effectiveness as helpful assistants. However, existing benchmarks primarily focus on basic abilities using nonverbal methods, such as yes-no and multiple-choice questions. In this paper, we address this gap by introducing AlignMMBench, a comprehensive alignment benchmark specifically designed for emerging Chinese VLMs. This benchmark is meticulously curated from real-world scenarios and Chinese Internet sources, encompassing thirteen specific tasks across three categories, and includes both single-turn and multi-turn dialogue scenarios. Incorporating a prompt rewrite strategy, AlignMMBench encompasses 1,054 images and 4,978 question-answer pairs. To facilitate the evaluation pipeline, we propose CritiqueVLM, a rule-calibrated evaluator that exceeds GPT-4’s evaluation ability. Finally, we report the performance of representative VLMs on AlignMMBench, offering insights into the capabilities and limitations of different VLM architectures. All evaluation codes and data are available on https://alignmmbench.github.io.
arxiv情報
著者 | Yuhang Wu,Wenmeng Yu,Yean Cheng,Yan Wang,Xiaohan Zhang,Jiazheng Xu,Ming Ding,Yuxiao Dong |
発行日 | 2024-06-14 02:14:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google