VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs

要約

ビデオ言語ドメインでは、ビデオ理解を目的としたゼロショット大規模言語モデルベースの推論を活用する最近の研究が、以前のエンドツーエンド モデルに対する競争力のある挑戦者となっています。
ただし、ゼロショット LLM ベースのアプローチであっても、長時間にわたる推論の複雑さにより、長時間のビデオを理解することには特有の課題が生じます。
長いビデオにおける情報の冗長性という課題により、大規模言語モデル (LLM) にとってどの特定の情報が不可欠なのか、また、長いビデオ分析における複雑な時空間推論にそれらの情報をどのように活用するのかという疑問が生じます。
我々は、フレームワーク VideoINSTA、すなわち、ゼロショットの長編ビデオを理解するための INformative Spatial-TemporAl Reasoning を提案します。
VideoINSTA は、(1) LLM を使用した長時間ビデオ理解のためのゼロショット フレームワークに貢献します。
(2) LLM がビデオ内の時空間情報を推論するための、イベントベースの時間的推論とコンテンツベースの空間的推論のアプローチ。
(3) 情報の十分性と予測の信頼性に基づいて時間的要因のバランスを取る自己反省的な情報推論スキーム。
私たちのモデルは、EgoSchema、NextQA、IntentQA という 3 つの長いビデオ質問応答ベンチマークと、公開質問応答データセット ActivityNetQA に関する最先端のベンチマークを大幅に改善します。
コードはここでリリースされています: https://github.com/mayhugotong/VideoINSTA。

要約(オリジナル)

In the video-language domain, recent works in leveraging zero-shot Large Language Model-based reasoning for video understanding have become competitive challengers to previous end-to-end models. However, long video understanding presents unique challenges due to the complexity of reasoning over extended timespans, even for zero-shot LLM-based approaches. The challenge of information redundancy in long videos prompts the question of what specific information is essential for large language models (LLMs) and how to leverage them for complex spatial-temporal reasoning in long-form video analysis. We propose a framework VideoINSTA, i.e. INformative Spatial-TemporAl Reasoning for zero-shot long-form video understanding. VideoINSTA contributes (1) a zero-shot framework for long video understanding using LLMs; (2) an event-based temporal reasoning and content-based spatial reasoning approach for LLMs to reason over spatial-temporal information in videos; (3) a self-reflective information reasoning scheme balancing temporal factors based on information sufficiency and prediction confidence. Our model significantly improves the state-of-the-art on three long video question-answering benchmarks: EgoSchema, NextQA, and IntentQA, and the open question answering dataset ActivityNetQA. The code is released here: https://github.com/mayhugotong/VideoINSTA.

arxiv情報

著者 Ruotong Liao,Max Erler,Huiyu Wang,Guangyao Zhai,Gengyuan Zhang,Yunpu Ma,Volker Tresp
発行日 2024-09-30 15:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク