MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

要約

マルチモーダル言語言語モデル (MLLM) は、「ワールド モデル」、つまり複雑な現実世界のダイナミクスについての解釈と推論の新たな能力を実証します。
これらの能力を評価するために、私たちはビデオが現実世界のダイナミクスと因果関係の豊富な表現をカプセル化しているため、理想的な媒体であると仮定します。
この目的を達成するために、多分野、多面的なマルチモーダルビデオ理解のための新しいベンチマークである MMWorld を紹介します。
MMWorld は、次の 2 つの独自の利点により、以前のビデオ理解ベンチマークとは異なります。(1) 複数の専門分野をカバーし、包括的な理解には多くの場合専門分野の専門知識が必要となるさまざまな分野をカバーします。
(2) 説明、反事実的思考、将来予測などを含む多面的推論。MMWorld は、ビデオ全体に関する質問で MLLM を評価するための人による注釈付きデータセットと、単一の知覚モダリティ内で MLLM を分析するための合成データセットで構成されます。
MMWorld には、7 つの幅広い分野と 69 の下位分野にわたる 1,910 のビデオが含まれており、6,627 の質問と回答のペアと関連するキャプションが含まれています。
評価には 2 つの独自の MLLM と 10 のオープンソース MLLM が含まれていますが、MMWorld では苦戦しており (たとえば、GPT-4V はわずか 52.3\% の精度で最高のパフォーマンスを示します)、改善の余地が大きいことが示されています。
さらなるアブレーション研究により、モデルの人間とは異なるスキルセットなど、他の興味深い発見も明らかになりました。
MMWorld がビデオでの世界モデルの評価に向けた重要なステップとして機能することを願っています。

要約(オリジナル)

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of ‘world models’ — interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models’ different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.

arxiv情報

著者 Xuehai He,Weixi Feng,Kaizhi Zheng,Yujie Lu,Wanrong Zhu,Jiachen Li,Yue Fan,Jianfeng Wang,Linjie Li,Zhengyuan Yang,Kevin Lin,William Yang Wang,Lijuan Wang,Xin Eric Wang
発行日 2024-06-12 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク