TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler

要約

ビデオ行動の認識とシーンの理解は、マルチモーダルインテリジェンスの基本的なタスクであり、多くの現実世界のアプリケーションの重要なビルディングブロックとして機能します。
大規模なマルチモーダルモデル(LMM)を通じて、ビデオ理解において顕著な進歩を遂げています。ほとんどの既存のオープンソースモデルは7B以上のパラメーターに依存しており、トレーニングに大規模なデータセットを必要とし、多くの研究者がリソースを集中してアクセスできません。
さらに、軽量モデルは、長い視覚シーケンスと時間的理解を効果的に処理する上で、持続的な課題に直面しています。
この作業では、約3.6Bのパラメーターを備えた軽量でありながら強力なビデオ理解モデルであるTinyLlava-Videoを紹介します。
私たちのデザインの礎石は、ビデオレベルの視覚トークンの数を大幅に削減および制御する新しいメカニズムであるビデオレベルのグループリサンプラーです。
従来の画像レベルの再サンプラーとは異なり、当社のアプローチは、一時的な理解を高めながら、冗長性を効果的に緩和し、ビデオベースのタスクのパフォーマンスの向上につながります。
さらに、Tinyllava-Videoは並外れた効率を示し、8 A100-40G GPUでの1日間のトレーニングのみを必要とします。
複数のベンチマーク上のいくつかの既存の7Bパラメーターモデルを上回ります。
この作品は、軽量ビデオ理解モデルに関する将来の研究の貴重な基盤を提供すると考えています。
コードと重みはhttps://github.com/zhangxj199/tinyllava-videoで入手できます。

要約(オリジナル)

Video behavior recognition and scene understanding are fundamental tasks in multimodal intelligence, serving as critical building blocks for numerous real-world applications. Through large multimodal models (LMMs) have achieved remarkable progress in video understanding, most existing open-source models rely on over 7B parameters and require large-scale datasets for training, making them resource-intensive and inaccessible to many researchers. Furthermore, lightweight models face persistent challenges in effectively processing long visual sequences and temporal understanding. In this work, we introduce TinyLLaVA-Video, a lightweight yet powerful video understanding model with approximately 3.6B parameters. The cornerstone of our design is the video-level group resampler, a novel mechanism that significantly reduces and controls the number of visual tokens at the video level. Unlike traditional image-level resampler, our approach effectively mitigates redundancy while enhancing temporal comprehension, leading to improved performance on video-based tasks. In addition, TinyLLaVA-Video demonstrates exceptional efficiency, requiring only one day of training on 8 A100-40G GPUs. It surpasses several existing 7B-parameter models on multiple benchmarks. We believe this work provides a valuable foundation for future research on lightweight video understanding models. The code and weights is available at https://github.com/ZhangXJ199/TinyLLaVA-Video.

arxiv情報

著者 Xingjian Zhang,Xi Weng,Yihao Yue,Zhaoxin Fan,Wenjun Wu,Lei Huang
発行日 2025-06-10 14:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク