Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model

要約

ビジョン言語モデル(VLM)の最近の進歩は、画像とテキストを接続することに大きな期待を示していますが、これらのモデルを長いビデオに拡張することは、トークン数の急速な成長のために依然として困難です。
時間またはスペースのローカル集約によりビデオを圧縮するモデルは、長い形式の入力を処理するために人気があります。
ただし、これらのプーリングベースのプロジェクターは、ストリーミングと効率的なビデオ理解に不可欠な固定長い表現の利点を犠牲にします。
$ \ texttt {espresso} $を紹介します。これは、空間的特徴と時間的機能を固定長のシーケンスに個別に圧縮する新しいアーキテクチャです。
$ \ texttt {espresso} $は、強力な長期的な推論機能を維持しながら、効率的なビデオエンコードを有効にします。
実験では、セグメントごとの処理と組み合わせた固定長圧縮が、プーリングベースのアプローチに代わるスケーラブルで競争力のある代替品を提供することを示しています。
私たちの結果は、固定長のプロジェクターが適切に設計および訓練されている場合、ビデオ言語モデリングの実行可能な基盤であり続けることを示しています。

要約(オリジナル)

Recent advances in vision-language models (VLMs) have shown great promise in connecting images and text, but extending these models to long videos remains challenging due to the rapid growth in token counts. Models that compress videos by local aggregation in time or space have become popular for handling long-form inputs; however, these pooling-based projectors sacrifice the benefits of fixed-length representations that are crucial for streaming and efficient video understanding. We introduce $\texttt{Espresso}$, a new architecture that separately compresses spatial and temporal features into fixed-length sequences. $\texttt{Espresso}$ enables efficient video encoding while maintaining strong long-form reasoning capabilities. Experiments show that fixed-length compression combined with segment-wise processing offers a scalable and competitive alternative to pooling-based approaches. Our results demonstrate that fixed-length projectors, when properly designed and trained, remain a viable foundation for video-language modeling.

arxiv情報

著者 Keunwoo Peter Yu,Achal Dave,Rares Ambrus,Jean Mercat
発行日 2025-05-16 14:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク