MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding

要約

MRを提案します。
ビデオ、長いビデオを処理するためのシンプルで効果的なMapReduce原則を示すエージェントの長いビデオ理解フレームワーク:(1)マップ:独立して密に短いビデオクリップを知覚し、(2)すべてのクリップから情報を共同で集約します。
シーケンスからシーケンスへの視覚言語モデル(VLM)と比較して、MR。
ビデオは、コンテキストの長さによって制限されることなく、詳細な短いビデオ認識を実行します。
通常、シーケンシャルキーセグメントの選択に依存する既存のビデオエージェントと比較して、マップ操作により、短いビデオセグメントのよりシンプルでスケーラブルなシーケンス並列認識が可能になります。
その削減ステップにより、より包括的なコンテキスト集約と推論が可能になり、明示的なキーセグメントの検索を超えます。
このMapReduceの原則は、VLMSとビデオエージェントの両方に適用でき、LLMエージェントを使用してその有効性を検証します。
実際には、MR。
ビデオでは、2つのMapReduce段階を採用しています。(a)キャプション:短いビデオクリップのキャプションの生成(マップ)、その後、繰り返される文字とオブジェクトを共有名(reduce)に標準化します。
(b)分析:ユーザーの質問ごとに、個々の短いビデオ(マップ)からの関連情報を分析し、最終回答(削減)に統合します。
氏。
ビデオは、最先端のVLMSやビデオエージェントと比較して、挑戦的なLVBenchで10%以上の精度改善を達成します。
コードは、https://github.com/ziqipang/mr-videoで入手できます

要約(オリジナル)

We propose MR. Video, an agentic long video understanding framework that demonstrates the simple yet effective MapReduce principle for processing long videos: (1) Map: independently and densely perceiving short video clips, and (2) Reduce: jointly aggregating information from all clips. Compared with sequence-to-sequence vision-language models (VLMs), MR. Video performs detailed short video perception without being limited by context length. Compared with existing video agents that typically rely on sequential key segment selection, the Map operation enables simpler and more scalable sequence parallel perception of short video segments. Its Reduce step allows for more comprehensive context aggregation and reasoning, surpassing explicit key segment retrieval. This MapReduce principle is applicable to both VLMs and video agents, and we use LLM agents to validate its effectiveness. In practice, MR. Video employs two MapReduce stages: (A) Captioning: generating captions for short video clips (map), then standardizing repeated characters and objects into shared names (reduce); (B) Analysis: for each user question, analyzing relevant information from individual short videos (map), and integrating them into a final answer (reduce). MR. Video achieves over 10% accuracy improvement on the challenging LVBench compared to state-of-the-art VLMs and video agents. Code is available at: https://github.com/ziqipang/MR-Video

arxiv情報

著者 Ziqi Pang,Yu-Xiong Wang
発行日 2025-04-22 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク