要約
人間は、情報の知覚、知識の理解、新しい問題を解決するために知識を適応させるという 3 つの認知段階を通じて知識を獲得します。
ビデオはこの学習プロセスの効果的な媒体として機能し、認知段階の進行を促進します。
ただし、既存のビデオ ベンチマークでは、大規模マルチモーダル モデル (LMM) の知識獲得機能を体系的に評価できません。
このギャップに対処するために、ビデオから知識を取得して活用する LMM の能力を評価するために設計された、マルチモーダルで複数の専門分野にまたがるベンチマークである Video-MMMU を導入します。
Video-MMMU は、6 つの分野にわたる 300 の専門家レベルのビデオと人間による注釈付きの 900 の質問からなる厳選されたコレクションを特徴としており、段階に合わせた質問と回答のペア (知覚、理解、適応) を通じて知識の獲得を評価します。
提案された知識獲得指標である {\Delta}knowledge は、ビデオ視聴後のパフォーマンスの向上を定量化します。
LMM の評価では、認知要求が高まるにつれてパフォーマンスが急激に低下することが明らかになり、人間とモデルの知識獲得の間に大きなギャップがあることが浮き彫りになり、ビデオから学習して適応する LMM の能力を強化する方法の必要性が強調されています。
要約(オリジナル)
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs’ ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs’ capability to learn and adapt from videos.
arxiv情報
著者 | Kairui Hu,Penghao Wu,Fanyi Pu,Wang Xiao,Yuanhan Zhang,Xiang Yue,Bo Li,Ziwei Liu |
発行日 | 2025-01-23 16:51:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google