PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

要約

Large Vision-Language Model (VLM) は、画像とビデオの両方を理解できるように拡張されました。
ビジュアル トークン圧縮を利用して、ビジュアル入力の相当なトークン長を削減します。
さまざまなタスクのニーズを満たすために、既存の高性能モデルは通常、さまざまなトークン圧縮戦略を使用して画像とビデオを別々に処理し、画像とビデオを組み合わせる機能が制限されています。
この目的を達成するために、各画像を「静的」ビデオに拡張し、プログレッシブ ビジュアル トークン圧縮 (PVC) と呼ばれる統合トークン圧縮戦略を導入します。この戦略では、各フレームのトークンがプログレッシブにエンコードされ、適応的に圧縮されて、以前の画像から抽出されなかった情報が補完されます。
フレーム。
ビデオ トークンは、固有の時間的冗長性を利用して効率的に圧縮されます。
画像は静止ビデオとして繰り返され、空間の詳細は複数のフレームで徐々に補完されます。
PVC は、画像とビデオのトークン圧縮を統合します。
フレームあたりのトークンの数が制限されている (デフォルトでは 64 トークン) 場合でも、空間の詳細と時間的変化を保持できます。
実験の結果、私たちのモデルは、長いビデオ タスクやきめ細かい短いビデオ タスクなど、さまざまなビデオ理解ベンチマークにわたって最先端のパフォーマンスを達成していることがわかりました。
一方、当社の統合トークン圧縮戦略は、特に詳細に敏感なタスクにおいて、画像ベンチマークでのパフォーマンスの損失を引き起こしません。

要約(オリジナル)

Large Vision-Language Models (VLMs) have been extended to understand both images and videos. Visual token compression is leveraged to reduce the considerable token length of visual inputs. To meet the needs of different tasks, existing high-performance models usually process images and videos separately with different token compression strategies, limiting the capabilities of combining images and videos. To this end, we extend each image into a ‘static’ video and introduce a unified token compression strategy called Progressive Visual Token Compression (PVC), where the tokens of each frame are progressively encoded and adaptively compressed to supplement the information not extracted from previous frames. Video tokens are efficiently compressed with exploiting the inherent temporal redundancy. Images are repeated as static videos, and the spatial details can be gradually supplemented in multiple frames. PVC unifies the token compressing of images and videos. With a limited number of tokens per frame (64 tokens by default), spatial details and temporal changes can still be preserved. Experiments show that our model achieves state-of-the-art performance across various video understanding benchmarks, including long video tasks and fine-grained short video tasks. Meanwhile, our unified token compression strategy incurs no performance loss on image benchmarks, particularly in detail-sensitive tasks.

arxiv情報

著者 Chenyu Yang,Xuan Dong,Xizhou Zhu,Weijie Su,Jiahao Wang,Hao Tian,Zhe Chen,Wenhai Wang,Lewei Lu,Jifeng Dai
発行日 2024-12-12 18:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク