要約
高品質のデータフィルタリング、マルチモーダルデータ混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、最先端のマルチモーダルLLM Pre-Training Pre-Training Pre-Training Faceは、パイプラインのあらゆる段階で障壁を照らします。
220 A100-40G GPU時間のみを使用して、29mの画像テキストペアで効率的に事前に訓練された完全にオープンソース2Bパラメーターマルチモーダル大手言語モデルであるOpen-QWEN2VLを導入します。
私たちのアプローチは、低から高度の動的画像解像度とマルチモーダルシーケンスパッキングを採用して、トレーニング前の効率を大幅に向上させます。
トレーニングデータセットは、MLLMベースのフィルタリング技術(MLM-Filterなど)と従来のクリップベースのフィルタリング方法の両方を使用して、データの品質とトレーニング効率を大幅に改善して、慎重にキュレーションされました。
Open-QWEN2VLプリトレーニングは、5BパックされたマルチモーダルトークンのUCSBのアカデミックレベル8XA100-40G GPUで行われます。
最終的な命令チューニングされたOpen-QWEN2VLは、MMBench、Seedbench、MMStar、およびMathvistaのさまざまなマルチモーダルベンチマークで部分的にオープンした最先端のMLLM QWEN2-VL-2Bを上回り、Open-QWEN2VLの顕著なトレーニング効率を示しています。
計算効率の良いトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDataSet形式のプリトレーニングデータ、FSDPベースのトレーニングコードベース、および命令チューニングモデルチェックポイントの両方を含む、作業のすべての側面をオープンソーシングします。
マルチモーダルLLMの「完全に開いて」を再定義します。1)トレーニングコードベース、2)詳細データフィルタリング手法、3)モデルの開発に使用されるすべてのトレーニング前および監視された微調整データ。
要約(オリジナル)
The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 220 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine ‘fully open’ for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.
arxiv情報
著者 | Weizhi Wang,Yu Tian,Linjie Yang,Heng Wang,Xifeng Yan |
発行日 | 2025-04-02 11:17:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google