LongVILA: Scaling Long-Context Visual Language Models for Long Videos

要約

ロングコンテキスト機能は、マルチモーダル基盤モデルにとって重要です。
システム、モデルのトレーニング、データセット開発を含む、ロングコンテキストのビジョン言語モデルのためのフルスタック ソリューションである LongVILA を紹介します。
システム側では、長時間のトレーニングと推論を可能にする初のロングコンテキスト マルチモーダル シーケンス並列処理 (MM-SP) システムを導入し、勾配チェックポイントなしで 256 GPU で 2M コンテキスト長のトレーニングを可能にします。
MM-SP は、テキストのみの設定でリング シーケンス並列処理より 2.1 倍から 5.7 倍高速で、メガトロン コンテキスト並列処理 + テンソル並列処理より 1.1 倍から 1.4 倍高速です。
さらに、ハグフェイストランスフォーマーとシームレスに統合されます。
モデルトレーニングのために、アライメント、プリトレーニング、短い監視された微調整、コンテキスト拡張、長い監視された微調整を含む5段階のパイプラインを提案します。
データセットでは、マルチステージトレーニングプロセスをサポートするために、大規模な視覚言語のトレーニング前データセットと長いビデオ命令に従うデータセットを構築します。
LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack

LongVILA-8B は、フレーム数が増加するにつれて、VideoMME ベンチマークで長いビデオの精度が一貫して向上することを示しています。

要約(オリジナル)

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first long-context Multi-Modal Sequence Parallelism (MM-SP) system that enables long training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. MM-SP is 2.1x – 5.7x faster than ring sequence parallelism and 1.1x – 1.4x faster than Megatron context parallelism + tensor parallelism in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, short supervised fine-tuning, context extension, and long supervised fine-tuning. On datasets, we construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases.

arxiv情報

著者 Fuzhao Xue,Yukang Chen,Dacheng Li,Qinghao Hu,Ligeng Zhu,Xiuyu Li,Yunhao Fang,Haotian Tang,Shang Yang,Zhijian Liu,Ethan He,Hongxu Yin,Pavlo Molchanov,Jan Kautz,Linxi Fan,Yuke Zhu,Yao Lu,Song Han
発行日 2024-08-20 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク