VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

要約

現実世界のビデオ設定での数学的推論は、静的な画像やテキストよりも根本的に異なる課題を提示します。
細い視覚情報を解釈し、手書きまたはデジタルテキストを正確に読み取り、音声の合図を統合する必要があります。
このようなマルチモーダルのコンテキストでは、成功は知覚だけでなく、豊かで騒々しいコンテンツのストリームから適切なコンテキストの詳細を選択して統合することにかかっています。
この目的のために、ビデオでモデルがそのような一時的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークであるVideomathqaを紹介します。
ベンチマークは、10秒から1時間以上の範囲のビデオをカバーする10の多様な数学ドメインにまたがっています。
構造化された視覚コンテンツを解釈し、指導的物語を理解し、視覚、音声、およびテキストのモダリティ全体で共同で根拠のある概念を描くモデルが必要です。
大学院レベルの専門家を雇用して、高品質を確保し、合計$ 920 $ MAN-Hours of Annotationです。
実際のシナリオを反映するために、質問は3つのコア推論の課題を中心に設計されています。直接問題解決。
概念転送。これには、学習方法を新しい問題に適用する必要があります。
そして、拡張された説明と部分的にワークアウトされたソリューションよりも多段階的な推論を含む、深い教育的理解。
各質問には、マルチステップの推論注釈が含まれ、モデル機能の微調整された診断を可能にします。
このベンチマークを通じて、既存のアプローチの限界を強調し、一時的に拡張されたモダリティが豊富な数学的問題設定を越えて、単に知覚するのではなく、推論しなければならないモデルの体系的な評価フレームワークを確立します。
当社のベンチマークおよび評価コードは、https://mbzuai-oryx.github.io/videomathqaで入手できます

要約(オリジナル)

Mathematical reasoning in real-world video settings presents a fundamentally different challenge than in static images or text. It requires interpreting fine-grained visual information, accurately reading handwritten or digital text, and integrating spoken cues, often dispersed non-linearly over time. In such multimodal contexts, success hinges not just on perception, but on selectively identifying and integrating the right contextual details from a rich and noisy stream of content. To this end, we introduce VideoMathQA, a benchmark designed to evaluate whether models can perform such temporally extended cross-modal reasoning on videos. The benchmark spans 10 diverse mathematical domains, covering videos ranging from 10 seconds to over 1 hour. It requires models to interpret structured visual content, understand instructional narratives, and jointly ground concepts across visual, audio, and textual modalities. We employ graduate-level experts to ensure high quality, totaling over $920$ man-hours of annotation. To reflect real-world scenarios, questions are designed around three core reasoning challenges: direct problem solving, where answers are grounded in the presented question; conceptual transfer, which requires applying learned methods to new problems; and deep instructional comprehension, involving multi-step reasoning over extended explanations and partially worked-out solutions. Each question includes multi-step reasoning annotations, enabling fine-grained diagnosis of model capabilities. Through this benchmark, we highlight the limitations of existing approaches and establish a systematic evaluation framework for models that must reason, rather than merely perceive, across temporally extended and modality-rich mathematical problem settings. Our benchmark and evaluation code are available at: https://mbzuai-oryx.github.io/VideoMathQA

arxiv情報

著者 Hanoona Rasheed,Abdelrahman Shaker,Anqi Tang,Muhammad Maaz,Ming-Hsuan Yang,Salman Khan,Fahad Khan
発行日 2025-06-05 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク