要約
時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなインターフェイスまで、多様なドメイン間の正確な相互作用に不可欠です。
現在のビデオベースのアプローチは、追跡に熟練していますが、大規模な言語モデルの洗練された推論能力を欠いており、コンテキストの理解と一般化を制限しています。
テキストの説明を条件に条件付けられた細粒の時空間ポインティングに合わせた大きなマルチモーダルモデルであるVideomolmoを紹介します。
Molmo Architectureに基づいて、VideoMolmoは、前のフレームに各フレームを条件付けるための注意メカニズムを利用して時間モジュールを組み込み、時間的一貫性を確保します。
さらに、我々の新しい時間的マスク融合パイプラインは、双方向の伝播にSAM2を採用しており、ビデオシーケンス全体のコヒーレンスを大幅に強化しています。
この2段階の分解、つまり、最初にLLMを使用して正確なポインティング座標を生成し、次にシーケンシャルマスク融合モジュールに依存してコヒーレントセグメンテーションを生成し、言語モデルのタスクを単純化するだけでなく、解釈性を高めます。
適切なデータセットが不足しているため、100Kオブジェクトポイントが注釈された72Kビデオキャプションペアで構成される包括的なデータセットをキュレートします。
VideoMolmoの一般化を評価するために、VPOSベンチを紹介します。これは、セル追跡、エゴセントリックビジョン、自律運転、ビデオGUIの相互作用、ロボット工学の5つの現実世界のシナリオにまたがる挑戦的な分散式ベンチマークです。
また、ビデオオブジェクトのセグメンテーション(参照)および推論VOSタスクの紹介に関するモデルを評価します。
既存のモデルと比較して、Videomolmoは時空間的ポインティングの精度と推論能力を大幅に改善します。
私たちのコードとモデルは、https://github.com/mbzuai-oryx/videomolmoで公開されています。
要約(オリジナル)
Spatio-temporal localization is vital for precise interactions across diverse domains, from biological research to autonomous navigation and interactive interfaces. Current video-based approaches, while proficient in tracking, lack the sophisticated reasoning capabilities of large language models, limiting their contextual understanding and generalization. We introduce VideoMolmo, a large multimodal model tailored for fine-grained spatio-temporal pointing conditioned on textual descriptions. Building upon the Molmo architecture, VideoMolmo incorporates a temporal module utilizing an attention mechanism to condition each frame on preceding frames, ensuring temporal consistency. Additionally, our novel temporal mask fusion pipeline employs SAM2 for bidirectional point propagation, significantly enhancing coherence across video sequences. This two-step decomposition, i.e., first using the LLM to generate precise pointing coordinates, then relying on a sequential mask-fusion module to produce coherent segmentation, not only simplifies the task for the language model but also enhances interpretability. Due to the lack of suitable datasets, we curate a comprehensive dataset comprising 72k video-caption pairs annotated with 100k object points. To evaluate the generalization of VideoMolmo, we introduce VPoS-Bench, a challenging out-of-distribution benchmark spanning five real-world scenarios: Cell Tracking, Egocentric Vision, Autonomous Driving, Video-GUI Interaction, and Robotics. We also evaluate our model on Referring Video Object Segmentation (Refer-VOS) and Reasoning VOS tasks. In comparison to existing models, VideoMolmo substantially improves spatio-temporal pointing accuracy and reasoning capability. Our code and models are publicly available at https://github.com/mbzuai-oryx/VideoMolmo.
arxiv情報
著者 | Ghazi Shazan Ahmad,Ahmed Heakl,Hanan Gani,Abdelrahman Shaker,Zhiqiang Shen,Ranjay Krishna,Fahad Shahbaz Khan,Salman Khan |
発行日 | 2025-06-05 17:59:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google