LongVILA: Scaling Long-Context Visual Language Models for Long Videos

要約

ロングコンテキスト機能は、マルチモーダル基盤モデル、特に長時間のビデオを理解するために重要です。
アルゴリズムとシステムを共同設計することにより、ロングコンテキストの視覚言語モデル用のフルスタック ソリューションである LongVILA を紹介します。
モデルのトレーニングでは、既存の VLM をアップグレードして、2 つの追加ステージ、つまり長時間のコンテキスト拡張と長期間の教師付き微調整を組み込むことで、長時間のビデオの理解をサポートします。
ただし、長いビデオでのトレーニングは計算量とメモリを大量に消費します。
長いコンテキストのマルチモーダル シーケンス並列処理 (MM-SP) システムを導入します。これは、長いビデオのトレーニングと推論を効率的に並列化し、勾配チェックポイントを使用せずに 256 GPU で 2M のコンテキスト長のトレーニングを可能にします。
LongVILA は、VILA のビデオ フレーム数を 8 から 1024 に効率的に拡張し、長いビデオのキャプション スコアを 2.00 から 3.26 (5 点満点中) に改善し、1400 フレーム (コンテキスト長 274k) のビデオ ニードルインアで 99.5% の精度を達成しました。
-干し草の山。
LongVILA-8B は、フレーム数が増加するにつれて、VideoMME ベンチマークで長いビデオの精度が一貫して向上することを示しています。
さらに、MM-SP はリング シーケンス並列処理より 2.1 倍から 5.7 倍高速であり、コンテキスト並列処理 + テンソル並列処理では Megatron より 1.1 倍から 1.4 倍高速です。
さらに、ハグフェイストランスフォーマーとシームレスに統合されます。

要約(オリジナル)

Long-context capability is critical for multi-modal foundation models, especially for long video understanding. We introduce LongVILA, a full-stack solution for long-context visual-language models by co-designing the algorithm and system. For model training, we upgrade existing VLMs to support long video understanding by incorporating two additional stages, i.e., long context extension and long supervised fine-tuning. However, training on long video is computationally and memory intensive. We introduce the long-context Multi-Modal Sequence Parallelism (MM-SP) system that efficiently parallelizes long video training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. LongVILA efficiently extends the number of video frames of VILA from 8 to 1024, improving the long video captioning score from 2.00 to 3.26 (out of 5), achieving 99.5% accuracy in 1400-frame (274k context length) video needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases. Besides, MM-SP is 2.1x – 5.7x faster than ring sequence parallelism and 1.1x – 1.4x faster than Megatron with context parallelism + tensor parallelism. Moreover, it seamlessly integrates with Hugging Face Transformers.

arxiv情報

著者 Fuzhao Xue,Yukang Chen,Dacheng Li,Qinghao Hu,Ligeng Zhu,Xiuyu Li,Yunhao Fang,Haotian Tang,Shang Yang,Zhijian Liu,Ethan He,Hongxu Yin,Pavlo Molchanov,Jan Kautz,Linxi Fan,Yuke Zhu,Yao Lu,Song Han
発行日 2024-08-21 17:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク