Multimodal Long Video Modeling Based on Temporal Dynamic Context

要約

大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレークスルーが発生しました。
ただし、既存のモデルは、LLMのコンテキスト長の制約とビデオ内の膨大な量の情報により、長いビデオ処理と依然として苦労しています。
いくつかの最近の方法は長いビデオ理解のために設計されていますが、トークンの圧縮中に重要な情報を失い、オーディオなどの追加のモダリティに苦労することがよくあります。
この作業では、時間的動的コンテキスト(TDC)という名前のフレーム間の時間的関係を利用して、動的な長いビデオエンコーディング方法を提案します。
まず、ビデオをフレーム間の類似性に基づいて意味的に一貫したシーンにセグメント化し、Visual-Audioエンコーダーを使用して各フレームをトークンにエンコードします。
第二に、各セグメント内のトークンの数を減らすために、新しい時間的コンテキストコンプレッサーを提案します。
具体的には、クエリベースのトランスを使用して、ビデオ、オーディオ、および命令テキストトークンを限られた時間コンテキストトークンに集約します。
最後に、ビデオ理解のために静的フレームトークンと時間的コンテキストトークンをLLMに送ります。
さらに、非常に長いビデオを処理するために、複数のビデオセグメントから回答を徐々に抽出するトレーニングなしの考え方の戦略を提案します。
これらの中間の答えは、推論プロセスの一部として機能し、最終的な答えに貢献します。
一般的なビデオの理解とオーディオビデオ理解ベンチマークについて広範な実験を実施します。この方法では、この方法が強力なパフォーマンスを示しています。
コードとモデルは、https://github.com/hoar012/tdc-videoで入手できます。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have led to significant breakthroughs in video understanding. However, existing models still struggle with long video processing due to the context length constraint of LLMs and the vast amount of information within the video. Although some recent methods are designed for long video understanding, they often lose crucial information during token compression and struggle with additional modality like audio. In this work, we propose a dynamic long video encoding method utilizing the temporal relationship between frames, named Temporal Dynamic Context (TDC). Firstly, we segment the video into semantically consistent scenes based on inter-frame similarities, then encode each frame into tokens using visual-audio encoders. Secondly, we propose a novel temporal context compressor to reduce the number of tokens within each segment. Specifically, we employ a query-based Transformer to aggregate video, audio, and instruction text tokens into a limited set of temporal context tokens. Finally, we feed the static frame tokens and the temporal context tokens into the LLM for video understanding. Furthermore, to handle extremely long videos, we propose a training-free chain-of-thought strategy that progressively extracts answers from multiple video segments. These intermediate answers serve as part of the reasoning process and contribute to the final answer. We conduct extensive experiments on general video understanding and audio-video understanding benchmarks, where our method demonstrates strong performance. The code and models are available at https://github.com/Hoar012/TDC-Video.

arxiv情報

著者 Haoran Hao,Jiaming Han,Yiyuan Zhang,Xiangyu Yue
発行日 2025-04-14 17:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク