VideoAgent: Long-form Video Understanding with Large Language Model as Agent

要約

長い形式のビデオの理解は、コンピュータ ビジョンにおける重大な課題であり、長いマルチモーダル シーケンスを推論できるモデルが必要です。
長時間のビデオを理解するための人間の認知プロセスを動機として、私たちは長い視覚入力を処理する能力よりも、インタラクティブな推論と計画を重視します。
我々は、新しいエージェントベースのシステムである VideoAgent を導入します。このシステムは、質問に答えるための重要な情報を反復的に特定して編集するための中心エージェントとして大規模な言語モデルを採用しており、視覚情報を翻訳および取得するツールとして機能する視覚言語基盤モデルを備えています。
困難な EgoSchema および NExT-QA ベンチマークで評価された VideoAgent は、平均 8.4 および 8.2 フレームのみを使用して、54.1% および 71.3% のゼロショット精度を達成しています。
これらの結果は、現在の最先端の方法よりも私たちの方法の有効性と効率が優れていることを示しており、長編ビデオの理解を進める上でのエージェントベースのアプローチの可能性を強調しています。

要約(オリジナル)

Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.

arxiv情報

著者 Xiaohan Wang,Yuhui Zhang,Orr Zohar,Serena Yeung-Levy
発行日 2024-03-15 17:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR パーマリンク