VideoMolmo: Spatio-Temporal Grounding Meets Pointing

要約

時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなインターフェイスまで、多様なドメイン間の正確な相互作用に不可欠です。
現在のビデオベースのアプローチは、追跡に熟練していますが、大規模な言語モデルの洗練された推論能力を欠いており、コンテキストの理解と一般化を制限しています。
テキストの説明を条件に条件付けられた細粒の時空間ポインティングに合わせた大きなマルチモーダルモデルであるVideomolmoを紹介します。
Molmo Architectureに基づいて、VideoMolmoは、前のフレームに各フレームを条件付けるための注意メカニズムを利用して時間モジュールを組み込み、時間的一貫性を確保します。
さらに、我々の新しい時間的マスク融合パイプラインは、双方向の伝播にSAM2を採用しており、ビデオシーケンス全体のコヒーレンスを大幅に強化しています。
この2段階の分解、つまり、最初にLLMを使用して正確なポインティング座標を生成し、次にシーケンシャルマスク融合モジュールに依存してコヒーレントセグメンテーションを生成し、言語モデルのタスクを単純化するだけでなく、解釈性を高めます。
適切なデータセットが不足しているため、100Kオブジェクトポイントが注釈された72Kビデオキャプションペアで構成される包括的なデータセットをキュレートします。
VideoMolmoの一般化を評価するために、VPOSベンチを紹介します。これは、セル追跡、エゴセントリックビジョン、自律運転、ビデオGUIの相互作用、ロボット工学の5つの現実世界のシナリオにまたがる挑戦的な分散式ベンチマークです。
また、ビデオオブジェクトのセグメンテーション(参照)および推論VOSタスクの紹介に関するモデルを評価します。
既存のモデルと比較して、Videomolmoは時空間的ポインティングの精度と推論能力を大幅に改善します。
私たちのコードとモデルは、https://github.com/mbzuai-oryx/videomolmoで公開されています。

要約(オリジナル)

Spatio-temporal localization is vital for precise interactions across diverse domains, from biological research to autonomous navigation and interactive interfaces. Current video-based approaches, while proficient in tracking, lack the sophisticated reasoning capabilities of large language models, limiting their contextual understanding and generalization. We introduce VideoMolmo, a large multimodal model tailored for fine-grained spatio-temporal pointing conditioned on textual descriptions. Building upon the Molmo architecture, VideoMolmo incorporates a temporal module utilizing an attention mechanism to condition each frame on preceding frames, ensuring temporal consistency. Additionally, our novel temporal mask fusion pipeline employs SAM2 for bidirectional point propagation, significantly enhancing coherence across video sequences. This two-step decomposition, i.e., first using the LLM to generate precise pointing coordinates, then relying on a sequential mask-fusion module to produce coherent segmentation, not only simplifies the task for the language model but also enhances interpretability. Due to the lack of suitable datasets, we curate a comprehensive dataset comprising 72k video-caption pairs annotated with 100k object points. To evaluate the generalization of VideoMolmo, we introduce VPoS-Bench, a challenging out-of-distribution benchmark spanning five real-world scenarios: Cell Tracking, Egocentric Vision, Autonomous Driving, Video-GUI Interaction, and Robotics. We also evaluate our model on Referring Video Object Segmentation (Refer-VOS) and Reasoning VOS tasks. In comparison to existing models, VideoMolmo substantially improves spatio-temporal pointing accuracy and reasoning capability. Our code and models are publicly available at https://github.com/mbzuai-oryx/VideoMolmo.

arxiv情報

著者 Ghazi Shazan Ahmad,Ahmed Heakl,Hanan Gani,Abdelrahman Shaker,Zhiqiang Shen,Ranjay Krishna,Fahad Shahbaz Khan,Salman Khan
発行日 2025-06-05 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoMolmo: Spatio-Temporal Grounding Meets Pointing はコメントを受け付けていません

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

要約

テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペースのダイバードレプリカを生成するためのパイプラインを提示します。
これを実現するために、最初にメッシュ表現から家具をセグメント化して削除し、平面を拡張し、穴を埋めて、簡略化された脱肉のメッシュ(SDM)を取得します。
このSDMは、シーンの根底にある構造の「X線」として機能し、解体プロセスを導きます。
深さからキャニーエッジを抽出し、SDMからレンダリングされた通常の画像を抽出します。
次に、これらをガイドとして使用して、ControlNet Inpaintingを介してパノラマ画像から家具を削除します。
この制御信号は、削除される家具によって特定のパノラマビューから隠されている可能性のあるグローバルな幾何学的情報の可用性を保証します。
塗装されたパノラマは、メッシュをテクスチャにするために使用されます。
私たちのアプローチは、ぼやけた低解像度の画像、または幻覚の影響を非常に受けやすいRGB-Dの入力を生成する傾向がある神経放射界に依存する方法よりも高品質の資産を生成することを示しています。

要約(オリジナル)

We present a pipeline for generating defurnished replicas of indoor spaces represented as textured meshes and corresponding multi-view panoramic images. To achieve this, we first segment and remove furniture from the mesh representation, extend planes, and fill holes, obtaining a simplified defurnished mesh (SDM). This SDM acts as an “X-ray” of the scene’s underlying structure, guiding the defurnishing process. We extract Canny edges from depth and normal images rendered from the SDM. We then use these as a guide to remove the furniture from panorama images via ControlNet inpainting. This control signal ensures the availability of global geometric information that may be hidden from a particular panoramic view by the furniture being removed. The inpainted panoramas are used to texture the mesh. We show that our approach produces higher quality assets than methods that rely on neural radiance fields, which tend to produce blurry low-resolution images, or RGB-D inpainting, which is highly susceptible to hallucinations.

arxiv情報

著者 Alan Dolhasz,Chen Ma,Dave Gausebeck,Kevin Chen,Gregor Miller,Lucas Hayne,Gunnar Hovden,Azwad Sabik,Olaf Brandt,Mira Slavcheva
発行日 2025-06-05 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh はコメントを受け付けていません

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

要約

具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーンの合成が不可欠です。
オブジェクトの生成とレイアウト生成の2つのサブタスクに自然に分割できます。
最近の生成モデルには、オブジェクトレベルの品質と制御可能性が大幅に進歩していますが、データセットが限られているため、レイアウト生成は依然として困難です。
既存のメソッドは、これらのデータセットに過剰にフィットするか、事前に定義された制約に依存して、柔軟性を犠牲にする数値レイアウトを最適化します。
その結果、彼らはオープンボキャブラリーであり、きめ細かいユーザー命令と整合するシーンを生成できませんでした。
DirectLayoutを導入します。これは、大規模な言語モデル(LLM)の一般化可能な空間推論を使用して、テキストの説明から数値3Dレイアウトを直接生成するフレームワークです。
DirectLayoutは、世代を3つの段階に分解します。鳥瞰図(BEV)レイアウトの作成、3Dスペースに持ち上げ、オブジェクトの配置を改良します。
明示的な空間推論を有効にし、モデルがオブジェクト配置の基本原理を把握できるようにするために、3D-FRONTデータセットに基づいて、チェーンオブ思考(COT)のアクティベーションを採用します。
さらに、コットグラウンドの生成レイアウト報酬を設計して、一般化と空間計画を強化します。
推論中、DirectLayoutは、コンテキスト内学習を介した反復資産のアラインメントを介して、資産とレイアウトの不一致に対処します。
広範な実験は、DirectLayoutが印象的なセマンティックな一貫性、一般化、および物理的妥当性を達成することを示しています。

要約(オリジナル)

Realistic 3D indoor scene synthesis is vital for embodied AI and digital content creation. It can be naturally divided into two subtasks: object generation and layout generation. While recent generative models have significantly advanced object-level quality and controllability, layout generation remains challenging due to limited datasets. Existing methods either overfit to these datasets or rely on predefined constraints to optimize numerical layout that sacrifice flexibility. As a result, they fail to generate scenes that are both open-vocabulary and aligned with fine-grained user instructions. We introduce DirectLayout, a framework that directly generates numerical 3D layouts from text descriptions using generalizable spatial reasoning of large language models (LLMs). DirectLayout decomposes the generation into three stages: producing a Bird’s-Eye View (BEV) layout, lifting it into 3D space, and refining object placements. To enable explicit spatial reasoning and help the model grasp basic principles of object placement, we employ Chain-of-Thought (CoT) Activation based on the 3D-Front dataset. Additionally, we design CoT-Grounded Generative Layout Reward to enhance generalization and spatial planning. During inference, DirectLayout addresses asset-layout mismatches via Iterative Asset-Layout Alignment through in-context learning. Extensive experiments demonstrate that DirectLayout achieves impressive semantic consistency, generalization and physical plausibility.

arxiv情報

著者 Xingjian Ran,Yixuan Li,Linning Xu,Mulin Yu,Bo Dai
発行日 2025-06-05 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning はコメントを受け付けていません

Refer to Anything with Vision-Language Prompts

要約

最近の画像セグメンテーションモデルは、画像を視覚エンティティの高品質のマスクにセグメント化するように進めていますが、言語とビジョンの両方に基づいて複雑なクエリに包括的なセマンティック理解を提供することはできません。
この制限により、ビジョン言語プロンプトによって駆動されるユーザーフレンドリーなインタラクションが必要なアプリケーションでの有効性が低下します。
このギャップを埋めるために、式のセグメンテーション(鉱石)を参照するオムニモダルの新しいタスクを紹介します。
このタスクでは、モデルは、テキストのみまたはテキストと参照ビジュアルエンティティによって指定された任意のプロンプトに基づいてマスクのグループを生成します。
この新しい課題に対処するために、「セグメンテーションマスクグループを参照する」(RAS)に新しいフレームワークを提案します。これは、マスク中心のマルチモーダルモデルを介して複雑なマルチモーダル相互作用と理解を備えたセグメンテーションモデルを増強します。
鉱石モデルのトレーニングとベンチマークのために、データセットMaskGroups-2MとMaskGroups-HQを作成して、テキストと参照エンティティで指定された多様なマスクグループを含めます。
広範な評価を通じて、新しい鉱石タスクでのRAの優れた性能を示し、式の古典的な参照式セグメンテーション(RES)および一般化された照会式セグメンテーション(GRES)タスクを示します。
プロジェクトページ:https://ref2any.github.io。

要約(オリジナル)

Recent image segmentation models have advanced to segment images into high-quality masks for visual entities, and yet they cannot provide comprehensive semantic understanding for complex queries based on both language and vision. This limitation reduces their effectiveness in applications that require user-friendly interactions driven by vision-language prompts. To bridge this gap, we introduce a novel task of omnimodal referring expression segmentation (ORES). In this task, a model produces a group of masks based on arbitrary prompts specified by text only or text plus reference visual entities. To address this new challenge, we propose a novel framework to ‘Refer to Any Segmentation Mask Group’ (RAS), which augments segmentation models with complex multimodal interactions and comprehension via a mask-centric large multimodal model. For training and benchmarking ORES models, we create datasets MaskGroups-2M and MaskGroups-HQ to include diverse mask groups specified by text and reference entities. Through extensive evaluation, we demonstrate superior performance of RAS on our new ORES task, as well as classic referring expression segmentation (RES) and generalized referring expression segmentation (GRES) tasks. Project page: https://Ref2Any.github.io.

arxiv情報

著者 Shengcao Cao,Zijun Wei,Jason Kuen,Kangning Liu,Lingzhi Zhang,Jiuxiang Gu,HyunJoon Jung,Liang-Yan Gui,Yu-Xiong Wang
発行日 2025-06-05 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Refer to Anything with Vision-Language Prompts はコメントを受け付けていません

ContentV: Efficient Training of Video Generation Models with Limited Compute

要約

ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます効率的なトレーニングレシピを需要しています。
このレポートでは、256 x 64GBのニューラル加工ユニット(NPU)をわずか4週間トレーニングした後、最先端のパフォーマンス(VBenchで85.14)を達成する8BパラメーターテキストからビデオへのcontentVを提示します。
ContentVは、テキストプロンプトからの複数の解像度と期間にわたって多様で高品質のビデオを生成し、3つの重要なイノベーションによって有効になります。(1)ビデオ生成の事前訓練を受けた画像生成モデルの再利用を最大化するミニマリストアーキテクチャ。
(2)効率を向上させるためのフローマッチングを活用する体系的なマルチステージトレーニング戦略。
(3)追加の人間の注釈を必要とせずに生成品質を向上させる人間のフィードバックフレームワークによる費用対効果の高い強化学習。
すべてのコードとモデルは、https://contentv.github.ioで入手できます。

要約(オリジナル)

Recent advances in video generation demand increasingly efficient training recipes to mitigate escalating computational costs. In this report, we present ContentV, an 8B-parameter text-to-video model that achieves state-of-the-art performance (85.14 on VBench) after training on 256 x 64GB Neural Processing Units (NPUs) for merely four weeks. ContentV generates diverse, high-quality videos across multiple resolutions and durations from text prompts, enabled by three key innovations: (1) A minimalist architecture that maximizes reuse of pre-trained image generation models for video generation; (2) A systematic multi-stage training strategy leveraging flow matching for enhanced efficiency; and (3) A cost-effective reinforcement learning with human feedback framework that improves generation quality without requiring additional human annotations. All the code and models are available at: https://contentv.github.io.

arxiv情報

著者 Wenfeng Lin,Renjie Chen,Boyuan Liu,Shiyue Yan,Ruoyu Feng,Jiangchuan Wei,Yichen Zhang,Yimeng Zhou,Chao Feng,Jiao Ran,Qi Wu,Zuotao Liu,Mingyu Guo
発行日 2025-06-05 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ContentV: Efficient Training of Video Generation Models with Limited Compute はコメントを受け付けていません

Neural Inverse Rendering from Propagating Light

要約

伝播光のマルチビューポイントビデオから物理的に基づいた神経逆レンダリングのための最初のシステムを提示します。
私たちのアプローチは、神経放射輝度キャッシングの時間分解拡張に依存しています。これは、あらゆる方向から任意のポイントに到着する無限の輝きを保存することによって逆レンダリングを加速する手法です。
結果のモデルは、直接的および間接的な光輸送効果を正確に説明し、フラッシュライダーシステムからのキャプチャされた測定に適用されると、強い間接光が存在する場合に最先端の3D再構成を可能にします。
さらに、キャプチャされた測定値の直接的および間接的なコンポーネントへの伝播の自動分解、およびキャプチャされたシーンのマルチビューの時間分解再生などの新しい機能を示すことを示します。

要約(オリジナル)

We present the first system for physically based, neural inverse rendering from multi-viewpoint videos of propagating light. Our approach relies on a time-resolved extension of neural radiance caching — a technique that accelerates inverse rendering by storing infinite-bounce radiance arriving at any point from any direction. The resulting model accurately accounts for direct and indirect light transport effects and, when applied to captured measurements from a flash lidar system, enables state-of-the-art 3D reconstruction in the presence of strong indirect light. Further, we demonstrate view synthesis of propagating light, automatic decomposition of captured measurements into direct and indirect components, as well as novel capabilities such as multi-view time-resolved relighting of captured scenes.

arxiv情報

著者 Anagh Malik,Benjamin Attal,Andrew Xie,Matthew O’Toole,David B. Lindell
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Neural Inverse Rendering from Propagating Light はコメントを受け付けていません

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

要約

マルチモーダル大手言語モデル(MLLM)は、視覚機能を備えた事前に訓練された大手言語モデル(LLM)を拡張することにより、一般に導出されます。
この作業では、MLLMが注意メカニズムを分析することにより、MLLMSが視覚入力をどのように処理するかを調査します。
驚くべきスパース現象を明らかにします。LLMSの注意ヘッドの小さなサブセット(約5%未満)のみが視覚的理解に積極的に貢献しています。
これらのヘッドを効率的に識別するために、ターゲットを絞った応答分析を通じてヘッドレベルの視覚的関連性を定量化するトレーニングフリーのフレームワークを設計します。
この発見に基づいて、視覚スコアに基づいて非対称計算予算をLLMSのヘッドに割り当てるKVキャッシュ最適化戦略であるSparsemmを紹介し、MLLMSの推論を加速するための視覚ヘッドの格差を活用します。
視覚の特異性を無視する以前のKVキャッシュ加速方法と比較して、Sparsemmは、デコード中にストレスと視覚セマンティクスの保持を優先します。
主流のマルチモーダルベンチマーク全体の広範な評価は、SPARSEMMが優れた精度効率のトレードオフを達成することを示しています。
特に、SPARSEMMは、効率テストでパフォーマンスパリティを維持しながら、生成中に1.38倍のリアルタイム加速度と52%のメモリ削減を提供します。
私たちのプロジェクトは、https://github.com/cr400af-a/sparsemmで開かれています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Language Models (LLMs) with visual capabilities. In this work, we investigate how MLLMs process visual inputs by analyzing their attention mechanisms. We reveal a surprising sparsity phenomenon: only a small subset (approximately less than 5%) of attention heads in LLMs actively contribute to visual understanding, termed visual heads. To identify these heads efficiently, we design a training-free framework that quantifies head-level visual relevance through targeted response analysis. Building on this discovery, we introduce SparseMM, a KV-Cache optimization strategy that allocates asymmetric computation budgets to heads in LLMs based on their visual scores, leveraging the sparity of visual heads for accelerating the inference of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the particularity of visual, SparseMM prioritizes stress and retaining visual semantics during decoding. Extensive evaluations across mainstream multimodal benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52% memory reduction during generation while maintaining performance parity on efficiency test. Our project is open sourced at https://github.com/CR400AF-A/SparseMM.

arxiv情報

著者 Jiahui Wang,Zuyan Liu,Yongming Rao,Jiwen Lu
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs はコメントを受け付けていません

FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

要約

このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り組んでいます。
最近の作品には、標準空間で3Dガウスプリミティブを定義し、変形場を使用して標準的なプリミティブを観察スペースにマッピングし、リアルタイムの動的ビュー合成を達成します。
ただし、これらの方法は、変形場を最適化するのが難しいため、複雑な動きでシーンを処理するのに苦労しています。
この問題を克服するために、Gaussian Primitivesが任意の時間と場所に現れることを可能にする新しい4D表現であるFreetimegsを提案します。
標準的なガウスプリミティブとは対照的に、私たちの表現は強力な柔軟性を備えているため、動的な3Dシーンをモデル化する能力が向上します。
さらに、各ガウス原始を運動関数に導き、時間の経過とともに隣接する領域に移動できるようにし、時間的冗長性が低下します。
実験の結果、いくつかのデータセットでの結果は、私たちの方法のレンダリング品質が最近の方法を大きなマージンで上回ることを示しています。

要約(オリジナル)

This paper addresses the challenge of reconstructing dynamic 3D scenes with complex motions. Some recent works define 3D Gaussian primitives in the canonical space and use deformation fields to map canonical primitives to observation spaces, achieving real-time dynamic view synthesis. However, these methods often struggle to handle scenes with complex motions due to the difficulty of optimizing deformation fields. To overcome this problem, we propose FreeTimeGS, a novel 4D representation that allows Gaussian primitives to appear at arbitrary time and locations. In contrast to canonical Gaussian primitives, our representation possesses the strong flexibility, thus improving the ability to model dynamic 3D scenes. In addition, we endow each Gaussian primitive with an motion function, allowing it to move to neighboring regions over time, which reduces the temporal redundancy. Experiments results on several datasets show that the rendering quality of our method outperforms recent methods by a large margin.

arxiv情報

著者 Yifan Wang,Peishan Yang,Zhen Xu,Jiaming Sun,Zhanhua Zhang,Yong Chen,Hujun Bao,Sida Peng,Xiaowei Zhou
発行日 2025-06-05 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction はコメントを受け付けていません

Contrastive Flow Matching

要約

無条件のフローマッチング列車拡散モデルは、サンプルペア間のフローが一意であることを強制することにより、ソース分布からターゲット分布にサンプルを輸送するための拡散モデルを拡散モデルにします。
ただし、条件付き設定(クラス条件付きモデルなど)では、この一意性はもはや保証されていません。さまざまな条件からのフローが重複し、より曖昧な世代につながる可能性があります。
コントラストフローマッチングを導入します。これは、すべての条件付きフローにわたって一意性を明示的に強制し、条件分離を強化するフローマッチング目標への拡張です。
私たちのアプローチは、任意のサンプルペアからの予測されるフロー間の非類似性を最大化する対照的な目的を追加します。
クラスコンディショニング(Imagenet-1K)とテキストからイメージ(CC3M)の両方のベンチマークの両方で、さまざまなモデルアーキテクチャ間で広範な実験を実施することにより、コントラストフローマッチングを検証します。
特に、対照的なフローマッチングを備えたトレーニングモデルは、(1)トレーニング速度を最大9倍に改善することがわかります。
https://github.com/gstoica27/deltafm.gitでコードをリリースします。

要約(オリジナル)

Unconditional flow-matching trains diffusion models to transport samples from a source distribution to a target distribution by enforcing that the flows between sample pairs are unique. However, in conditional settings (e.g., class-conditioned models), this uniqueness is no longer guaranteed–flows from different conditions may overlap, leading to more ambiguous generations. We introduce Contrastive Flow Matching, an extension to the flow matching objective that explicitly enforces uniqueness across all conditional flows, enhancing condition separation. Our approach adds a contrastive objective that maximizes dissimilarities between predicted flows from arbitrary sample pairs. We validate Contrastive Flow Matching by conducting extensive experiments across varying model architectures on both class-conditioned (ImageNet-1k) and text-to-image (CC3M) benchmarks. Notably, we find that training models with Contrastive Flow Matching (1) improves training speed by a factor of up to 9x, (2) requires up to 5x fewer de-noising steps and (3) lowers FID by up to 8.9 compared to training the same models with flow matching. We release our code at: https://github.com/gstoica27/DeltaFM.git.

arxiv情報

著者 George Stoica,Vivek Ramanujan,Xiang Fan,Ali Farhadi,Ranjay Krishna,Judy Hoffman
発行日 2025-06-05 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contrastive Flow Matching はコメントを受け付けていません

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

要約

現実世界のビデオ設定での数学的推論は、静的な画像やテキストよりも根本的に異なる課題を提示します。
細い視覚情報を解釈し、手書きまたはデジタルテキストを正確に読み取り、音声の合図を統合する必要があります。
このようなマルチモーダルのコンテキストでは、成功は知覚だけでなく、豊かで騒々しいコンテンツのストリームから適切なコンテキストの詳細を選択して統合することにかかっています。
この目的のために、ビデオでモデルがそのような一時的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークであるVideomathqaを紹介します。
ベンチマークは、10秒から1時間以上の範囲のビデオをカバーする10の多様な数学ドメインにまたがっています。
構造化された視覚コンテンツを解釈し、指導的物語を理解し、視覚、音声、およびテキストのモダリティ全体で共同で根拠のある概念を描くモデルが必要です。
大学院レベルの専門家を雇用して、高品質を確保し、合計$ 920 $ MAN-Hours of Annotationです。
実際のシナリオを反映するために、質問は3つのコア推論の課題を中心に設計されています。直接問題解決。
概念転送。これには、学習方法を新しい問題に適用する必要があります。
そして、拡張された説明と部分的にワークアウトされたソリューションよりも多段階的な推論を含む、深い教育的理解。
各質問には、マルチステップの推論注釈が含まれ、モデル機能の微調整された診断を可能にします。
このベンチマークを通じて、既存のアプローチの限界を強調し、一時的に拡張されたモダリティが豊富な数学的問題設定を越えて、単に知覚するのではなく、推論しなければならないモデルの体系的な評価フレームワークを確立します。
当社のベンチマークおよび評価コードは、https://mbzuai-oryx.github.io/videomathqaで入手できます

要約(オリジナル)

Mathematical reasoning in real-world video settings presents a fundamentally different challenge than in static images or text. It requires interpreting fine-grained visual information, accurately reading handwritten or digital text, and integrating spoken cues, often dispersed non-linearly over time. In such multimodal contexts, success hinges not just on perception, but on selectively identifying and integrating the right contextual details from a rich and noisy stream of content. To this end, we introduce VideoMathQA, a benchmark designed to evaluate whether models can perform such temporally extended cross-modal reasoning on videos. The benchmark spans 10 diverse mathematical domains, covering videos ranging from 10 seconds to over 1 hour. It requires models to interpret structured visual content, understand instructional narratives, and jointly ground concepts across visual, audio, and textual modalities. We employ graduate-level experts to ensure high quality, totaling over $920$ man-hours of annotation. To reflect real-world scenarios, questions are designed around three core reasoning challenges: direct problem solving, where answers are grounded in the presented question; conceptual transfer, which requires applying learned methods to new problems; and deep instructional comprehension, involving multi-step reasoning over extended explanations and partially worked-out solutions. Each question includes multi-step reasoning annotations, enabling fine-grained diagnosis of model capabilities. Through this benchmark, we highlight the limitations of existing approaches and establish a systematic evaluation framework for models that must reason, rather than merely perceive, across temporally extended and modality-rich mathematical problem settings. Our benchmark and evaluation code are available at: https://mbzuai-oryx.github.io/VideoMathQA

arxiv情報

著者 Hanoona Rasheed,Abdelrahman Shaker,Anqi Tang,Muhammad Maaz,Ming-Hsuan Yang,Salman Khan,Fahad Khan
発行日 2025-06-05 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos はコメントを受け付けていません