要約
混合モーダルの初期融合言語モデルを事前トレーニングするために設計された、新しいモダリティを意識した専門家混合 (MoE) アーキテクチャである MoMa を紹介します。
MoMa は、エキスパート モジュールをモダリティ固有のグループに分割することにより、画像とテキストを任意のシーケンスで処理します。
これらのグループは、意味論的に情報に基づいた適応性を維持するために、各グループ内で学習されたルーティングを採用しながら、指定されたトークンを排他的に処理します。
私たちの経験的結果は、このモダリティ固有のパラメーター割り当てを通じて、事前トレーニング効率が大幅に向上することを明らかにしています。
1 兆トークンのトレーニング予算の下で、4 人のテキスト エキスパートと 4 人の画像エキスパートを特徴とする MoMa 1.4B モデルは、フロップスの大幅な削減を達成します。つまり、コンピューティング マシンと比較して、全体で 3.7 倍、テキスト処理で 2.6 倍、画像処理で 5.2 倍です。
同等の高密度ベースライン。トレーニング前の損失によって測定されます。
これは、8 人の混合モーダル専門家による標準的な専門家選択の MoE を上回り、全体で 3 倍の FLOP 削減 (テキストで 3 倍、画像で 2.8 倍) を達成します。
MoMa と深度混合 (MoD) を組み合わせると、トレーニング前の FLOP の節約が全体で 4.2 倍 (テキスト: 3.4 倍、画像: 5.3 倍) にさらに改善されますが、この組み合わせではルーターの精度に対する感度が高まるため、因果推論のパフォーマンスが低下します。
これらの結果は、MoMa が混合モードの初期融合言語モデルの事前トレーニングの効率を大幅に向上させ、よりリソース効率が高く、より機能的なマルチモーダル AI システムへの道を開く可能性を示しています。
要約(オリジナル)
We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa’s potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems.
arxiv情報
| 著者 | Xi Victoria Lin,Akshat Shrivastava,Liang Luo,Srinivasan Iyer,Mike Lewis,Gargi Ghosh,Luke Zettlemoyer,Armen Aghajanyan | 
| 発行日 | 2024-08-12 16:20:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
