要約
人間のプロセスビデオ推論を順次空間的推論ロジックで、最初に関連するフレーム( ‘when’)を識別し、次にキーオブジェクト間の空間的関係( ‘where)を分析し、最終的にこれらの関係を活用して推論(「何」)を描きます。
ただし、ビデオの大規模な言語モデル(ビデオ-LLM)も「理由」で動画の時代の論理を介して「理由」を「理由」しますか?
既存のVideo-LLMベンチマークは、主にオブジェクトの存在の評価に焦点を当て、関係の推論を無視します。
したがって、モデルがビデオのオブジェクトの相互作用(アクション/イベント)を本当に理解するのか、それとも単に回答の生成におけるバイアスとして共起の事前に訓練された「メモリ」に依存するかどうかを測定することは困難です。
この作業では、これらの欠点に対処するために、ビデオ空間的推論(V-STAR)ベンチマークを紹介します。
重要なアイデアは、ビデオの理解を逆の時空間推論(RSTR)タスクに分解することです。これは、どのオブジェクトが存在するか、イベントが発生したとき、そして基礎となるチェーン(COT)ロジックをキャプチャしながらそれらがどこにあるかを同時に評価します。
この評価をサポートするために、Video-LLMの空間的推論プロセスを引き出すためのデータセットを構築します。
半自動化されたGPT-4駆動のパイプラインによって生成された粗から洗練されたCOTの質問が含まれており、明示的な推論チェーンを埋め込み、人間の認知を模倣します。
V-STARでの14のVideo-LLMの実験により、現在のビデオLLMと堅牢で一貫した空間的推論のニーズとの間の大きなギャップが明らかになりました。
要約(オリジナル)
Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames (‘when’) and then analyse the spatial relationships (‘where’) between key objects, and finally leverage these relationships to draw inferences (‘what’). However, can Video Large Language Models (Video-LLMs) also ‘reason through a sequential spatio-temporal logic’ in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained ‘memory’ of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.
arxiv情報
著者 | Zixu Cheng,Jian Hu,Ziquan Liu,Chenyang Si,Wei Li,Shaogang Gong |
発行日 | 2025-03-14 15:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google