要約
長型のビデオ理解は、ビデオデータの冗長性が高いことと、クエリと関係のある情報の豊富さによって複雑になります。
これらの課題に取り組むために、LLM推論のクエリ適応的で階層的なビデオ表現を長期にわたって推論するためのクエリに適合した階層的なビデオ表現を構築するトレーニングフリーのフレームワークであるVideoTreeを提案します。
第一に、VideoTreeは、クエリとの関連性に基づいてキーフレームの選択を徐々に改良して、反復プロセスを通じて入力ビデオからクエリ関連情報を抽出します。
さらに、VideoTreeは、長いビデオデータの固有の階層構造を活用します。これは、既存のLLMベースの方法で見落とされることがよくあります。
具体的には、多粒度情報をツリーベースの表現に組み込み、VideoTreeが粗から洗練された方法で長いビデオからクエリ関連の詳細を抽出できるようにします。
これにより、モデルはさまざまなレベルの詳細を備えた幅広いビデオクエリを効果的に処理できます。
最後に、VideoTreeはツリー構造内の階層クエリ関連情報を集約し、クエリに答えるためにLLM推論モデルに送ります。
私たちの実験は、私たちの方法が推論の精度と効率の両方を改善することを示しています。
具体的には、VideoTreeは、既存のトレーニングのないアプローチを、推論時間を短縮し、ビデオ固有のトレーニングを追加せずにテストセットで61.1%と75.6%の精度を達成します。
さらに、Video-MMEの長い分割(平均44分)では、VideoTreeはGPT-4Vやビデオデータで広く訓練された他の多くのMLLMよりも優れたパフォーマンスを実現します。
要約(オリジナル)
Long-form video understanding is complicated by the high redundancy of video data and the abundance of query-irrelevant information. To tackle these challenges, we propose VideoTree, a training-free framework which builds a query-adaptive and hierarchical video representation for LLM reasoning over long-form videos. First, VideoTree extracts query-relevant information from the input video through an iterative process, progressively refining the selection of keyframes based on their relevance to the query. Furthermore, VideoTree leverages the inherent hierarchical structure of long video data, which is often overlooked by existing LLM-based methods. Specifically, we incorporate multi-granularity information into a tree-based representation, allowing VideoTree to extract query-relevant details from long videos in a coarse-to-fine manner. This enables the model to effectively handle a wide range of video queries with varying levels of detail. Finally, VideoTree aggregates the hierarchical query-relevant information within the tree structure and feeds it into an LLM reasoning model to answer the query. Our experiments show that our method improves both reasoning accuracy and efficiency. Specifically, VideoTree outperforms existing training-free approaches on EgoSchema and NExT-QA with less inference time, achieving 61.1% and 75.6% accuracy on the test set without additional video-specific training. Moreover, on the long split of Video-MME (average 44 minutes), VideoTree achieves better performance than GPT-4V and many other MLLMs that were extensively trained on video data.
arxiv情報
著者 | Ziyang Wang,Shoubin Yu,Elias Stengel-Eskin,Jaehong Yoon,Feng Cheng,Gedas Bertasius,Mohit Bansal |
発行日 | 2025-03-14 13:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google