MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

要約

この作業では、パフォーマンスの高いマルチモーダル大規模言語モデル (MLLM) の構築について説明します。
特に、さまざまなアーキテクチャ コンポーネントとデータの選択の重要性を研究します。
画像エンコーダー、ビジョン言語コネクター、およびさまざまな事前トレーニング データの選択を注意深く包括的に除去することにより、いくつかの重要な設計上の教訓を特定しました。
たとえば、大規模なマルチモーダル事前トレーニングでは、画像キャプション、インターリーブされた画像テキスト、およびテキストのみのデータを慎重に組み合わせて使用​​することが、最先端 (SOTA) の少数ショットを達成するために重要であることを実証します。
複数のベンチマークにわたる結果を、他の公開されている事前トレーニング結果と比較します。
さらに、画像エンコーダと画像解像度および画像トークン数が大きな影響を与える一方で、ビジョン言語コネクタの設計は比較的無視できるほど重要であることを示します。
提示されたレシピをスケールアップすることで、高密度モデルと専門家混合 (MoE) バリアントの両方を含む、最大 30B パラメーターのマルチモーダル モデルのファミリーである MM1 を構築します。これは、トレーニング前のメトリクスで SOTA であり、教師付き後に競争力のあるパフォーマンスを達成します。
確立されたさまざまなマルチモーダルベンチマークに基づいて微調整します。
大規模な事前トレーニングのおかげで、MM1 は強化されたコンテキスト内学習や複数画像推論などの魅力的な特性を享受し、少数のショットで思考連鎖を促すことが可能になります。

要約(オリジナル)

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, including both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

arxiv情報

著者 Brandon McKinzie,Zhe Gan,Jean-Philippe Fauconnier,Sam Dodge,Bowen Zhang,Philipp Dufter,Dhruti Shah,Xianzhi Du,Futang Peng,Floris Weers,Anton Belyi,Haotian Zhang,Karanjeet Singh,Doug Kang,Ankur Jain,Hongyu Hè,Max Schwarzer,Tom Gunter,Xiang Kong,Aonan Zhang,Jianyu Wang,Chong Wang,Nan Du,Tao Lei,Sam Wiseman,Guoli Yin,Mark Lee,Zirui Wang,Ruoming Pang,Peter Grasch,Alexander Toshev,Yinfei Yang
発行日 2024-03-22 17:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク