要約
ロングコンテキスト機能は、マルチモーダル基盤モデルにとって重要です。
システム、モデルのトレーニング、データセット開発を含む、ロングコンテキストのビジョン言語モデルのためのフルスタック ソリューションである LongVILA を紹介します。
システム側では、ロングコンテキストのトレーニングと推論を可能にする初のマルチモーダル シーケンス並列処理 (MM-SP) システムを導入し、256 個の GPU で 2M のコンテキスト長のトレーニングを可能にします。
MM-SP も効率的であり、テキストのみの設定ではリングスタイル シーケンス並列処理より 2.1 倍から 5.7 倍高速で、Megatron-LM より 1.1 倍から 1.4 倍高速です。
さらに、ハグフェイストランスフォーマーとシームレスに統合されます。
モデルのトレーニングについては、アライメント、事前トレーニング、コンテキスト拡張、長短ジョイント監視付き微調整で構成される 5 段階のパイプラインを提案します。
データセットに関しては、多段階のトレーニング プロセスをサポートするために、大規模なビジュアル言語の事前トレーニング データセットと長いビデオ命令後のデータセットを細心の注意を払って構築しています。
フルスタック ソリューションにより、VILA の実現可能なフレーム数が 128 倍 (8 フレームから 1024 フレーム) に拡張され、長いビデオのキャプション スコアが 2.00 から 3.26 (1.6 倍) に向上し、1400 フレームのビデオ (274k) で 99.5% の精度を達成しました。
コンテキストの長さ) 干し草の山の中の針。
また、LongVILA-8B は、ビデオ フレームが増加するにつれて、VideoMME ベンチマーク内で長いビデオのパフォーマンスが一貫して向上していることを示しています。
要約(オリジナル)
Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x – 5.7x faster than Ring-Style Sequence Parallelism and 1.1x – 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.
arxiv情報
著者 | Fuzhao Xue,Yukang Chen,Dacheng Li,Qinghao Hu,Ligeng Zhu,Xiuyu Li,Yunhao Fang,Haotian Tang,Shang Yang,Zhijian Liu,Ethan He,Hongxu Yin,Pavlo Molchanov,Jan Kautz,Linxi Fan,Yuke Zhu,Yao Lu,Song Han |
発行日 | 2024-08-19 17:48:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google