Adaptive Keyframe Sampling for Long Video Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、視覚入力をコンテキストとして大規模な言語モデル(LLMS)に追加トークンとして注入することにより、オープンワールドの視覚的理解を可能にしました。
ただし、視覚入力が単一の画像から長いビデオに変化すると、膨大な量のビデオトークンがMLLMの最大容量を大幅に超えているため、上記のパラダイムが困難になります。
したがって、既存のビデオベースのMLLMは、主に入力データからトークンのごく一部をサンプリングする際に確立されます。これにより、重要な情報が失われ、したがって誤った回答が生じる可能性があります。
このペーパーでは、Adaptive Keyframeサンプリング(AKS)という名前のシンプルで効果的なアルゴリズムを紹介します。
キーフレーム選択として知られるプラグアンドプレイモジュールを挿入します。これは、固定数のビデオトークンで有用な情報を最大化することを目的としています。
キーフレームの選択は、(1)キーフレームとプロンプトの関連性、および(2)ビデオ上のキーフレームのカバレッジを含む最適化として策定し、最適なソリューションを近似するための適応アルゴリズムを提示します。
2つの長いビデオ理解ベンチマークでの実験では、適応キーフレームサンプリングにより、有益なキーフレームを選択するとビデオQAの精度(強力なベースラインを超えて)が向上することが検証されます。
私たちの研究は、ビデオベースのMLLMにおける情報を事前にろ過することの重要性を明らかにしています。
コードはhttps://github.com/nctimtang/aksで入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have enabled open-world visual understanding by injecting visual input as extra tokens into large language models (LLMs) as contexts. However, when the visual input changes from a single image to a long video, the above paradigm encounters difficulty because the vast amount of video tokens has significantly exceeded the maximal capacity of MLLMs. Therefore, existing video-based MLLMs are mostly established upon sampling a small portion of tokens from input data, which can cause key information to be lost and thus produce incorrect answers. This paper presents a simple yet effective algorithm named Adaptive Keyframe Sampling (AKS). It inserts a plug-and-play module known as keyframe selection, which aims to maximize the useful information with a fixed number of video tokens. We formulate keyframe selection as an optimization involving (1) the relevance between the keyframes and the prompt, and (2) the coverage of the keyframes over the video, and present an adaptive algorithm to approximate the best solution. Experiments on two long video understanding benchmarks validate that Adaptive Keyframe Sampling improves video QA accuracy (beyond strong baselines) upon selecting informative keyframes. Our study reveals the importance of information pre-filtering in video-based MLLMs. Code is available at https://github.com/ncTimTang/AKS.

arxiv情報

著者 Xi Tang,Jihao Qiu,Lingxi Xie,Yunjie Tian,Jianbin Jiao,Qixiang Ye
発行日 2025-02-28 17:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク