要約
マルチモーダル大手言語モデル(MLLMS)の評価は、ベンチマークのサイズとクロスモダリティの複雑さの増加が重要なスコアリング努力を必要とするため、ますます高価になります。
この困難に取り組むために、このエスカレートコストに取り組むMLLMの効率的かつ適応的なベンチマークのためのエージェント主導のフレームワークであるAutojudgerを紹介します。
Autojudgerは、アイテム応答理論(IRT)を採用して、質問の難易度と自律評価エージェントを推定して、モデルのリアルタイムパフォーマンスに基づいて最も有益なテスト質問を動的に選択します。
具体的には、Autojudgerには2つの重要なコンポーネントが組み込まれています。選択された質問がビジョンと言語のモダリティの両方で多様で挑戦的なシナリオをカバーするためのセマンティックアウェア検索メカニズムと、評価プロセス全体でコヒーレントおよびグローバルに通知された質問の選択を導くために以前に評価された質問の文脈的統計を維持する動的なメモリ。
4つの代表的なマルチモーダルベンチマークでの広範な実験は、適応フレームワークが評価費用を劇的に削減することを示しています。つまり、Autojudgerはデータの4%のみを使用して、MMTベンチの完全なベンチマーク評価で90%以上のランキング精度を達成しています。
要約(オリジナル)
Evaluating multimodal large language models (MLLMs) is increasingly expensive, as the growing size and cross-modality complexity of benchmarks demand significant scoring efforts. To tackle with this difficulty, we introduce AutoJudger, an agent-driven framework for efficient and adaptive benchmarking of MLLMs that tackles this escalating cost. AutoJudger employs the Item Response Theory (IRT) to estimate the question difficulty and an autonomous evaluation agent to dynamically select the most informative test questions based on the model’s real-time performance. Specifically, AutoJudger incorporates two pivotal components: a semantic-aware retrieval mechanism to ensure that selected questions cover diverse and challenging scenarios across both vision and language modalities, and a dynamic memory that maintains contextual statistics of previously evaluated questions to guide coherent and globally informed question selection throughout the evaluation process. Extensive experiments on four representative multimodal benchmarks demonstrate that our adaptive framework dramatically reduces evaluation expenses, i.e. AutoJudger uses only 4% of the data to achieve over 90% ranking accuracy with the full benchmark evaluation on MMT-Bench.
arxiv情報
著者 | Xuanwen Ding,Chengjun Pan,Zejun Li,Jiwen Zhang,Siyuan Wang,Zhongyu Wei |
発行日 | 2025-05-27 16:17:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google