要約
最新のビデオ大規模な言語モデル(VLLM)は、ビデオ理解のために均一なフレームサンプリングに依存することがよくありますが、このアプローチは、フレームの冗長性とビデオコンテンツのバリエーションのために重要な情報をキャプチャできないことがよくあります。
Maxinfoは、入力ビデオから最も代表的なフレームを選択および保持する最大体積原理に基づいたトレーニングなしの方法です。
選択された埋め込みによって形成される幾何学容量を最大化することにより、Maxinfoは、選択されたフレームが埋め込みスペースの最も有益な領域をカバーし、多様性を維持しながら冗長性を効果的に削減することを保証します。
この方法は、入力表現の品質を向上させ、ベンチマーク全体で長いビデオ理解のパフォーマンスを向上させます。
たとえば、MaxinfoはLlava-Video-7BのLongideobenchの3.28%の改善と6.4%のEgoschemaの改善を達成しています。
また、Llava-Video-72bの3.47%の改善も達成されます。
このアプローチは、実装が簡単で、追加のトレーニングを必要とせずに既存のVLLMを使用して動作するため、従来の均一なサンプリング方法に代わる実用的で効果的な代替手段になります。
要約(オリジナル)
Modern Video Large Language Models (VLLMs) often rely on uniform frame sampling for video understanding, but this approach frequently fails to capture critical information due to frame redundancy and variations in video content. We propose MaxInfo, a training-free method based on the maximum volume principle, which selects and retains the most representative frames from the input video. By maximizing the geometric volume formed by selected embeddings, MaxInfo ensures that the chosen frames cover the most informative regions of the embedding space, effectively reducing redundancy while preserving diversity. This method enhances the quality of input representations and improves long video comprehension performance across benchmarks. For instance, MaxInfo achieves a 3.28% improvement on LongVideoBench and a 6.4% improvement on EgoSchema for LLaVA-Video-7B. It also achieves a 3.47% improvement for LLaVA-Video-72B. The approach is simple to implement and works with existing VLLMs without the need for additional training, making it a practical and effective alternative to traditional uniform sampling methods.
arxiv情報
著者 | Pengyi Li,Irina Abdullaeva,Alexander Gambashidze,Andrey Kuznetsov,Ivan Oseledets |
発行日 | 2025-02-05 13:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google