SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

要約

Slowaffast-llava-1.5(SF-llava-1.5として省略)を紹介します。これは、長い形式のビデオ理解のためのトークン効率の高いソリューションを提供するビデオ大規模言語モデル(LLMS)ファミリー(LLMS)です。
このモデルファミリは、2ストリームのゆっくりとしたメカニズムを採用しており、長距離時間コンテキストの効率的なモデリングを可能にして、軽量でモバイルに優しいビデオLLMの需要を満たしています。
合理化されたトレーニングパイプラインと、公開されているデータセットで構成される高品質のデータ混合物を通じて最適化された1Bから7Bのパラメーターの範囲のモデルを提供します。
実験結果は、SF-llava-1.5が幅広いビデオベンチマークで競争力のあるパフォーマンスを達成し、すべてのモデルサイズにわたって堅牢な結果をもたらすことを示しています。
特に、SF-llava-1.5は、長期のビデオ理解(LongvideobenchやMLVUなど)で最新の結果を達成し、さまざまなビデオベンチマークで小さなスケール(1bおよび3b)で優れています。

要約(オリジナル)

We introduce SlowFast-LLaVA-1.5 (abbreviated as SF-LLaVA-1.5), a family of video large language models (LLMs) offering a token-efficient solution for long-form video understanding. This model family employs the two-stream SlowFast mechanism, enabling efficient modeling of long-range temporal context to meet the demand for lightweight, mobile-friendly Video LLMs. We provide models ranging from 1B to 7B parameters, optimized through a streamlined training pipeline and a high-quality data mixture composed of publicly available datasets. Experimental results demonstrate that SF-LLaVA-1.5 achieves competitive performance on a wide range of video and image benchmarks, with robust results across all model sizes. Notably, SF-LLaVA-1.5 achieves state-of-the-art results in long-form video understanding (e.g., LongVideoBench and MLVU) and excels at small scales (1B and 3B) across various video benchmarks.

arxiv情報

著者 Mingze Xu,Mingfei Gao,Shiyu Li,Jiasen Lu,Zhe Gan,Zhengfeng Lai,Meng Cao,Kai Kang,Yinfei Yang,Afshin Dehghan
発行日 2025-03-24 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク