VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning

要約

最近のビデオ理解の進歩は、マルチモーダルの大手言語モデル(MLLMS)によって推進されています。
しかし、これらのMLLMは、短いビデオを分析するのが得意ですが、より長いコンテキストでビデオを理解するのが困難に苦しんでいます。
この困難に対処するために、いくつかのエージェントパラダイムが最近提案されており、長いビデオで追加のコンテキスト知識を取得するためのエージェントとしてMLLMSを使用しています。
ただし、ほとんどの既存のエージェントは、長いビデオが複数のショットで構成されているという重要な事実を無視しています。つまり、長いビデオからユーザーの質問に答えるために、人間のような関連するショットを深く理解することが重要です。
そのような洞察がなければ、これらのエージェントはしばしば誤って冗長な騒々しい時間的文脈でさえ冗長に感じられ、長いビデオ理解の能力を制限します。
このギャップを埋めるために、新しい長いビデオエージェントパラダイムであるVideoChat-A1を提案します。
以前の作品とは異なり、私たちのVideoChat-A1は、明確なショットの推論パラダイムを介して、長いビデオで深く考えることができます。
より具体的には、ユーザーの質問の関連するショットを徐々に選択し、粗からファインのパーティションでこれらのショットを調べることができます。
ショットチェーンに沿ったマルチモーダル推論により、VideoChat-A1は段階的な人間の思考プロセスを効果的に模倣し、長いビデオで思慮深い理解のために好ましい時間的コンテキストをインタラクティブに発見することができます。
広範な実験では、VideoChat-A1が主流の長いビデオQAベンチマークで最先端のパフォーマンスを達成することを示しています。
緊密なソースGPT-4OおよびGemini 1.5 Proの先頭と比較して、VideoChat-A1は競争の正確性を提供しますが、平均して7 \%入力フレームと12 \%推論時間を備えています。

要約(オリジナル)

The recent advance in video understanding has been driven by multimodal large language models (MLLMs). But these MLLMs are good at analyzing short videos, while suffering from difficulties in understanding videos with a longer context. To address this difficulty, several agent paradigms have recently been proposed, using MLLMs as agents for retrieving extra contextual knowledge in a long video. However, most existing agents ignore the key fact that a long video is composed with multiple shots, i.e., to answer the user question from a long video, it is critical to deeply understand its relevant shots like human. Without such insight, these agents often mistakenly find redundant even noisy temporal context, restricting their capacity for long video understanding. To fill this gap, we propose VideoChat-A1, a novel long video agent paradigm. Different from the previous works, our VideoChat-A1 can deeply think with long videos, via a distinct chain-of-shot reasoning paradigm. More specifically, it can progressively select the relevant shots of user question, and look into these shots in a coarse-to-fine partition. By multi-modal reasoning along the shot chain, VideoChat-A1 can effectively mimic step-by-step human thinking process, allowing to interactively discover preferable temporal context for thoughtful understanding in long videos. Extensive experiments show that, our VideoChat-A1 achieves the state-of-the-art performance on the mainstream long video QA benchmarks, e.g., it achieves 77.0 on VideoMME and 70.1 on EgoSchema, outperforming its strong baselines (e.g., Intern2.5VL-8B and InternVideo2.5-8B), by up to 10.8\% and 6.2\%. Compared to leading close-source GPT-4o and Gemini 1.5 Pro, VideoChat-A1 offers competitive accuracy, but with 7\% input frames and 12\% inference time on average.

arxiv情報

著者 Zikang Wang,Boyu Chen,Zhengrong Yue,Yi Wang,Yu Qiao,Limin Wang,Yali Wang
発行日 2025-06-06 13:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク