要約
広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い複数の個別のイベントやエンティティが含まれています。
したがって、長い形式のビデオ質問応答 (LVQA) を実行する場合、正しい応答を生成するために必要なすべての情報をフレームの小さなサブセット内に含めることができます。
最近の文献では、ビデオ内のすべてのビジュアル コンテンツを自然言語に変換するためにビジョン言語モデル (VLM) に依存しながら、LVQA ベンチマークで大規模言語モデル (LLM) を使用して優れたパフォーマンスを達成することが検討されています。
このような VLM は、長いビデオから均一にサンプリングされた多数のフレームに独立してキャプションを付けることがよくありますが、これは効率的ではなく、ほとんどが冗長になる可能性があります。
これらの意思決定の選択肢に疑問を持ち、これらの冗長性を大幅に削減できる、キーフレームの選択とシーケンスを意識したキャプションの最適な戦略を探ります。
それぞれの側面を改善する 2 つの新しいアプローチ、つまり階層キーフレーム セレクターとシーケンシャル ビジュアル LLM を提案します。
結果として得られた LVNet と呼ばれるフレームワークは、3 つのベンチマーク LVQA データセットにわたって最先端のパフォーマンスを達成します。
私たちのコードは公開されます。
要約(オリジナル)
Long-form videos that span across wide temporal intervals are highly information redundant and contain multiple distinct events or entities that are often loosely-related. Therefore, when performing long-form video question answering (LVQA),all information necessary to generate a correct response can often be contained within a small subset of frames. Recent literature explore the use of large language models (LLMs) in LVQA benchmarks, achieving exceptional performance, while relying on vision language models (VLMs) to convert all visual content within videos into natural language. Such VLMs often independently caption a large number of frames uniformly sampled from long videos, which is not efficient and can mostly be redundant. Questioning these decision choices, we explore optimal strategies for key-frame selection and sequence-aware captioning, that can significantly reduce these redundancies. We propose two novel approaches that improve each of aspects, namely Hierarchical Keyframe Selector and Sequential Visual LLM. Our resulting framework termed LVNet achieves state-of-the-art performance across three benchmark LVQA datasets. Our code will be released publicly.
arxiv情報
著者 | Jongwoo Park,Kanchana Ranasinghe,Kumara Kahatapitiya,Wonjeong Ryoo,Donghyun Kim,Michael S. Ryoo |
発行日 | 2024-06-13 17:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google