Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、ビデオ理解のための新しい道が開かれました。
ただし、ゼロショットビデオタスクで高い忠実度を達成することは依然として困難です。
従来のビデオ処理方法は、微妙な時空間の詳細をキャプチャするための微調整に大きく依存しており、これには多大なデータと計算コストがかかります。
対照的に、トレーニング不要のアプローチは効率的ではありますが、多くの場合、複雑なビデオ コンテンツ全体にわたってコンテキストに富んだ特徴を保持する堅牢性に欠けています。
この目的を達成するために、重要なシーンの詳細を維持しながらトークン効率を適応的に最適化するゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案します。
DYTO は、階層的なフレーム選択と 2 部構成のトークン マージ戦略を統合して、キー フレームを動的にクラスター化し、トークン シーケンスを選択的に圧縮し、計算効率とセマンティックの豊富さのバランスをとります。
複数のベンチマークにわたる広範な実験により、DYTO の有効性が実証され、微調整されたトレーニング不要の方法と比較して優れたパフォーマンスを達成し、ゼロショットビデオ理解のための新しい最先端を確立しました。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have opened new avenues for video understanding. However, achieving high fidelity in zero-shot video tasks remains challenging. Traditional video processing methods rely heavily on fine-tuning to capture nuanced spatial-temporal details, which incurs significant data and computation costs. In contrast, training-free approaches, though efficient, often lack robustness in preserving context-rich features across complex video content. To this end, we propose DYTO, a novel dynamic token merging framework for zero-shot video understanding that adaptively optimizes token efficiency while preserving crucial scene details. DYTO integrates a hierarchical frame selection and a bipartite token merging strategy to dynamically cluster key frames and selectively compress token sequences, striking a balance between computational efficiency with semantic richness. Extensive experiments across multiple benchmarks demonstrate the effectiveness of DYTO, achieving superior performance compared to both fine-tuned and training-free methods and setting a new state-of-the-art for zero-shot video understanding.

arxiv情報

著者 Yiming Zhang,Zhuokai Zhao,Zhaorun Chen,Zenghui Ding,Xianjun Yang,Yining Sun
発行日 2024-11-21 18:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク