An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

要約

大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本質的にさまざまな時間情報密度を持つビデオの計算非効率性を作成します。
このペーパーでは、\ textBf {QuicksViewer}を紹介します。これは、Gumbel SoftMaxを使用して、不均一な密度のビデオをさまざまなキューブに分割する新しい知覚パラダイムを備えたLMMであり、それに続いて各キューブの統一された再サンプリングが行われ、効率的なビデオ理解を実現します。
このシンプルで直感的なアプローチは、その時間密度に基づいてオンラインでビデオを動的に圧縮し、時空間的冗長性(全体で45 $ \ Times $ $圧縮率)を大幅に減らし、大きな受容フィールドで効率的なトレーニングを可能にします。
言語のバックボーンから3つのプログレッシブステージを通じてモデルをトレーニングします。それぞれが、知覚効率のおかげで平均420S/1FPSで長いビデオを組み込んでいます。
トレーニング用の合計ビデオテキストサンプルのみで、私たちのモデルは、固定パーティション戦略を最大8.72の精度で使用する直接ベースラインよりも優れており、パフォーマンスの有効性を示しています。
Video-Mmeでは、QuicksViewerは、ベースラインで必要なフレームごとに最大5 \%のトークンを使用して、控えめなシーケンス長でSOTAを実現します。
このパラダイムを使用すると、入力フレームの数を拡大すると、モデル機能の明確な電力法則が明らかになります。
また、キューブネットワークによって生成されたセグメントがビデオでの継続的なイベントの分析に役立つことが経験的に検証されています。

要約(オリジナル)

Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present \textbf{Quicksviewer}, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45$\times$ compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

arxiv情報

著者 Ji Qi,Yuan Yao,Yushi Bai,Bin Xu,Juanzi Li,Zhiyuan Liu,Tat-Seng Chua
発行日 2025-04-21 17:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク