SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

要約

Slowaffast-llava-1.5(SF-llava-1.5として省略)を紹介します。これは、長い形式のビデオ理解のためのトークン効率の高いソリューションを提供するビデオ大規模言語モデル(LLMS)ファミリー(LLMS)です。
2ストリームスローファーストメカニズムを合理化されたトレーニングパイプラインに組み込み、公開されているデータセットのみの慎重にキュレーションされたデータ混合物について共同ビデオイメージトレーニングを実行します。
私たちの主な焦点は、非常に効率的なモデルスケール(1Bおよび3B)にあり、比較的小さなビデオLLMでさえ、ビデオ理解で最先端のパフォーマンスを達成し、モバイルフレンドリーモデルの需要を満たすことができることを示しています。
実験結果は、SF-llava-1.5が幅広いビデオおよび画像タスクで優れたパフォーマンスを達成し、すべてのモデルサイズ(1Bから7Bの範囲)で堅牢な結果をもたらすことを示しています。
特に、SF-llava-1.5は、長い形式のビデオ理解(LongvideobenchやMLVUなど)で最新の結果を達成し、さまざまなビデオベンチマークにわたって小さなスケールで優れています。

要約(オリジナル)

We introduce SlowFast-LLaVA-1.5 (abbreviated as SF-LLaVA-1.5), a family of video large language models (LLMs) offering a token-efficient solution for long-form video understanding. We incorporate the two-stream SlowFast mechanism into a streamlined training pipeline, and perform joint video-image training on a carefully curated data mixture of only publicly available datasets. Our primary focus is on highly efficient model scales (1B and 3B), demonstrating that even relatively small Video LLMs can achieve state-of-the-art performance on video understanding, meeting the demand for mobile-friendly models. Experimental results demonstrate that SF-LLaVA-1.5 achieves superior performance on a wide range of video and image tasks, with robust results at all model sizes (ranging from 1B to 7B). Notably, SF-LLaVA-1.5 achieves state-of-the-art results in long-form video understanding (e.g., LongVideoBench and MLVU) and excels at small scales across various video benchmarks.

arxiv情報

著者 Mingze Xu,Mingfei Gao,Shiyu Li,Jiasen Lu,Zhe Gan,Zhengfeng Lai,Meng Cao,Kai Kang,Yinfei Yang,Afshin Dehghan
発行日 2025-03-27 17:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク