VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

要約

ビデオ言語を理解するタスクは短いビデオ クリップに焦点を当てており、多くの場合、長い形式のビデオを理解するタスクに苦労しています。
最近、多くの長いビデオ言語理解アプローチでは、大規模言語モデル (LLM) の推論機能を利用して長いビデオ QA を実行し、ビデオを高密度にサンプリングされたフレーム キャプションに変換し、LLM にキャプションに対するテキスト クエリへの応答を求めています。
ただし、キャプションに使用されるフレームは多くの場合冗長で無関係な情報が含まれているため、高密度のサンプリングは非効率的であり、ビデオ QA ではさまざまなレベルの粒度が必要であり、一部のビデオ セグメントは質問との関連性が高い (よりきめ細かい詳細が必要である) という事実が無視されています。
) 一方、関連性の低いものもあります。
したがって、これらの LLM ベースのアプローチは情報が欠落する傾向があり、無関係なキャプションを大量に処理するため、パフォーマンスと効率の両方が低下します。
これらの問題に対処するために、LLM を使用して長時間ビデオを理解するためのクエリ適応型の階層フレームワークである VideoTree を導入します。
VideoTree は、ビデオからクエリ関連の情報を動的に抽出し、LLM 推論のためのツリーベースの表現を構築します。
まず、VideoTree は、視覚的特徴に基づいてフレームを反復的にクラスタリングし、クエリとの関連性を使用してクラスタをスコアリングすることにより、キャプション用のフレームを適応的に選択します。
2 番目に、ビジュアル クラスターをクエリ適応型の階層ツリー構造に編成します。
ツリーは、関連するセグメントの解像度を高めて、さまざまなレベルの粒度をエンコードします。
最後に、VideoTree はツリーのキーフレームを走査し、そのキャプションを LLM 回答者に渡すことによって回答を生成します。
私たちの方法は、既存の方法と比較して推論の精度と効率の両方を向上させます。VideoTree は、推論時間を 40% 削減しながら、EgoSchema、NExT-QA、および IntentQA ベンチマークのベースラインに対してそれぞれ 7.0%、2.2%、2.7% の精度向上を達成しました。

要約(オリジナル)

Video-language understanding tasks have focused on short video clips, often struggling with long-form video understanding tasks. Recently, many long video-language understanding approaches have leveraged the reasoning capabilities of Large Language Models (LLMs) to perform long video QA, transforming videos into densely sampled frame captions, and asking LLMs to respond to text queries over captions. However, the frames used for captioning are often redundant and contain irrelevant information, making dense sampling inefficient, and ignoring the fact that video QA requires varying levels of granularity, with some video segments being highly relevant to the question (needing more fine-grained detail) while others being less relevant. Thus, these LLM-based approaches are prone to missing information and operate on large numbers of irrelevant captions, lowering both performance and efficiency. To address these issues, we introduce VideoTree, a query-adaptive and hierarchical framework for long-video understanding with LLMs. VideoTree dynamically extracts query-related information from a video and builds a tree-based representation for LLM reasoning. First, VideoTree adaptively selects frames for captioning by iteratively clustering frames based on their visual features and scoring clusters using their relevance to the query. Second, it organizes visual clusters into a query-adaptive and hierarchical tree structure; the tree encodes varying levels of granularity, with higher resolution on relevant segments. Finally, VideoTree produces an answer by traversing the tree’s keyframes and passing their captions to an LLM answerer. Our method improves both reasoning accuracy and efficiency compared to existing methods: VideoTree achieves a 7.0%, 2.2%, and 2.7% accuracy gain over baselines on the EgoSchema, NExT-QA, and IntentQA benchmarks, respectively, while reducing inference time by 40%.

arxiv情報

著者 Ziyang Wang,Shoubin Yu,Elias Stengel-Eskin,Jaehong Yoon,Feng Cheng,Gedas Bertasius,Mohit Bansal
発行日 2024-05-29 15:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク