要約
高度なビデオ分析機能を備えた大規模マルチモーダル モデル (LMM) が、最近大きな注目を集めています。
ただし、ほとんどの評価は、VideoMME や LongVideoBench などのベンチマークの多肢選択式質問などの従来の方法に依存しており、現実世界のユーザーの複雑な要求を捉えるのに必要な深さが不足する傾向があります。
この制限に対処するため、ビデオ タスクに対する人間による注釈の法外なコストと遅いペースに対処するために、LMSYS Chatbot Arena のフレームワークに触発されたアリーナ スタイルのベンチマークである VideoAutoArena を導入します。これは、LMM のビデオ分析能力を自動的に評価するように設計されています。
VideoAutoArena は、ユーザー シミュレーションを利用して、ビデオ理解におけるモデルのパフォーマンスを厳密に評価する自由回答型の適応型質問を生成します。
このベンチマークは、自動化されたスケーラブルな評価フレームワークを特徴としており、複数の LMM 間で公平かつ継続的に比較するために修正された ELO 評価システムが組み込まれています。
自動判定システムを検証するために、私たちは人間による注釈の慎重に厳選されたサブセットを使用して「ゴールドスタンダード」を構築し、私たちのアリーナがスケーラビリティを維持しながら人間の判断と強力に一致していることを実証します。
さらに、障害主導の進化戦略を導入し、質問の複雑さを段階的に増加させて、より困難なビデオ分析シナリオの処理に向けてモデルを推進します。
実験結果は、VideoAutoArena が最先端の LMM を効果的に区別し、モデルの強みと改善の領域についての洞察を提供することを示しています。
評価をさらに合理化するために、補助ベンチマークとして VideoAutoBench を導入します。ここでは、人間のアノテーターが VideoAutoArena の戦いのサブセットで勝者にラベルを付けます。
私たちは GPT-4o を判断材料として使用し、回答を人間が検証した回答と比較します。
VideoAutoArena と VideoAutoBench を併用すると、ユーザー中心のビデオ分析で LMM を評価するための、コスト効率が高く、スケーラブルなフレームワークが提供されます。
要約(オリジナル)
Large multimodal models (LMMs) with advanced video analysis capabilities have recently garnered significant attention. However, most evaluations rely on traditional methods like multiple-choice questions in benchmarks such as VideoMME and LongVideoBench, which are prone to lack the depth needed to capture the complex demands of real-world users. To address this limitation-and due to the prohibitive cost and slow pace of human annotation for video tasks-we introduce VideoAutoArena, an arena-style benchmark inspired by LMSYS Chatbot Arena’s framework, designed to automatically assess LMMs’ video analysis abilities. VideoAutoArena utilizes user simulation to generate open-ended, adaptive questions that rigorously assess model performance in video understanding. The benchmark features an automated, scalable evaluation framework, incorporating a modified ELO Rating System for fair and continuous comparisons across multiple LMMs. To validate our automated judging system, we construct a ‘gold standard’ using a carefully curated subset of human annotations, demonstrating that our arena strongly aligns with human judgment while maintaining scalability. Additionally, we introduce a fault-driven evolution strategy, progressively increasing question complexity to push models toward handling more challenging video analysis scenarios. Experimental results demonstrate that VideoAutoArena effectively differentiates among state-of-the-art LMMs, providing insights into model strengths and areas for improvement. To further streamline our evaluation, we introduce VideoAutoBench as an auxiliary benchmark, where human annotators label winners in a subset of VideoAutoArena battles. We use GPT-4o as a judge to compare responses against these human-validated answers. Together, VideoAutoArena and VideoAutoBench offer a cost-effective, and scalable framework for evaluating LMMs in user-centric video analysis.
arxiv情報
著者 | Ziyang Luo,Haoning Wu,Dongxu Li,Jing Ma,Mohan Kankanhalli,Junnan Li |
発行日 | 2024-11-20 12:48:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google