要約
ロングコンテキスト機能は、マルチモーダル基盤モデルにとって重要です。
システム、モデルのトレーニング、データセット開発を含む、ロングコンテキストのビジョン言語モデルのためのフルスタック ソリューションである LongVILA を紹介します。
システム側では、長時間のトレーニングと推論を可能にする初のロングコンテキスト マルチモーダル シーケンス並列処理 (MM-SP) システムを導入し、勾配チェックポイントなしで 256 GPU で 2M コンテキスト長のトレーニングを可能にします。
MM-SP は、テキストのみの設定でリング シーケンス並列処理より 2.1 倍から 5.7 倍高速で、メガトロン コンテキスト並列処理 + テンソル並列処理より 1.1 倍から 1.4 倍高速です。
さらに、ハグフェイストランスフォーマーとシームレスに統合されます。
モデルトレーニングのために、アライメント、プリトレーニング、短い監視された微調整、コンテキスト拡張、長い監視された微調整を含む5段階のパイプラインを提案します。
データセットでは、マルチステージトレーニングプロセスをサポートするために、大規模な視覚言語のトレーニング前データセットと長いビデオ命令に従うデータセットを構築します。
LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack
。
LongVILA-8B は、フレーム数が増加するにつれて、VideoMME ベンチマークで長いビデオの精度が一貫して向上することを示しています。
要約(オリジナル)
Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first long-context Multi-Modal Sequence Parallelism (MM-SP) system that enables long training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. MM-SP is 2.1x – 5.7x faster than ring sequence parallelism and 1.1x – 1.4x faster than Megatron context parallelism + tensor parallelism in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, short supervised fine-tuning, context extension, and long supervised fine-tuning. On datasets, we construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases.
arxiv情報
著者 | Fuzhao Xue,Yukang Chen,Dacheng Li,Qinghao Hu,Ligeng Zhu,Xiuyu Li,Yunhao Fang,Haotian Tang,Shang Yang,Zhijian Liu,Ethan He,Hongxu Yin,Pavlo Molchanov,Jan Kautz,Linxi Fan,Yuke Zhu,Yao Lu,Song Han |
発行日 | 2024-08-20 17:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google