要約
Large Vision-Language Model (LVLM) は、視覚情報と言語情報の統合を進め、広範囲にわたる複雑なアプリケーションやタスクを容易にするために不可欠なものとなっています。
ただし、LVLM の評価には、評価ベンチマークの構築に常に多大な人的コストが必要であり、一度構築されると静的なままで柔軟性に欠けるため、大きな課題が生じます。
自動評価はテキストモダリティで研究されていますが、視覚モダリティはまだ研究されていません。
その結果、この作業では、「LVLM は自動ベンチマークへのパスとして機能できるか?」という質問に対処します。
オンデマンドでの評価、つまりモデル機能の特定の側面に基づいた LVLM のベンチマークを提供するための自動フレームワークである AutoBench-V を紹介します。
評価機能を受け取ると、AutoBench-V はテキストから画像へのモデルを利用して関連する画像サンプルを生成し、LVLM を利用してビジュアル質問応答 (VQA) タスクを調整し、評価プロセスを効率的かつ柔軟に完了します。
5 つの要求されたユーザー入力 (つまり、評価機能) にわたる 7 つの人気のある LVLM の広範な評価を通じて、このフレームワークは有効性と信頼性を示しています。
(1) 構築されたベンチマークは、タスクのさまざまな困難を正確に反映しています。
(2) タスクの難易度が上がると、モデル間のパフォーマンスの差が広がります。
(3) モデルは抽象レベルの理解では優れたパフォーマンスを示しますが、詳細な推論タスクではパフォーマンスが劣ります。
(4) さまざまなレベルの難易度を備えたデータセットを構築することは、包括的かつ徹底的な評価のために重要です。
全体として、AutoBench-V は自動ベンチマークに LVLM をうまく活用しているだけでなく、審査員としての LVLM がさまざまな領域で大きな可能性を秘めていることも明らかにしています。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have become essential for advancing the integration of visual and linguistic information, facilitating a wide range of complex applications and tasks. However, the evaluation of LVLMs presents significant challenges as the evaluation benchmark always demands lots of human cost for its construction, and remains static, lacking flexibility once constructed. Even though automatic evaluation has been explored in textual modality, the visual modality remains under-explored. As a result, in this work, we address a question: ‘Can LVLMs serve as a path to automatic benchmarking?’. We introduce AutoBench-V, an automated framework for serving evaluation on demand, i.e., benchmarking LVLMs based on specific aspects of model capability. Upon receiving an evaluation capability, AutoBench-V leverages text-to-image models to generate relevant image samples and then utilizes LVLMs to orchestrate visual question-answering (VQA) tasks, completing the evaluation process efficiently and flexibly. Through an extensive evaluation of seven popular LVLMs across five demanded user inputs (i.e., evaluation capabilities), the framework shows effectiveness and reliability. We observe the following: (1) Our constructed benchmark accurately reflects varying task difficulties; (2) As task difficulty rises, the performance gap between models widens; (3) While models exhibit strong performance in abstract level understanding, they underperform in details reasoning tasks; and (4) Constructing a dataset with varying levels of difficulties is critical for a comprehensive and exhaustive evaluation. Overall, AutoBench-V not only successfully utilizes LVLMs for automated benchmarking but also reveals that LVLMs as judges have significant potential in various domains.
arxiv情報
著者 | Han Bao,Yue Huang,Yanbo Wang,Jiayi Ye,Xiangqi Wang,Xiuying Chen,Mohamed Elhoseiny,Xiangliang Zhang |
発行日 | 2024-10-29 12:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google