要約
LMFusionを、マルチモーダル生成機能を備えた事前に守られたテキストのみの大手言語モデル(LLM)を強化するためのフレームワークであり、任意のシーケンスでテキストと画像の両方を理解して生成できるようにします。
LMFusionは、拡散した画像を処理するための追加および並列変圧器モジュールを導入しながら、テキストを自動網羅的に処理するために既存のLLAMA-3の重みを活用します。
トレーニング中、各モダリティのデータは、モダリティ固有のフィードフォワードレイヤー、クエリキー価値投影、および正規化レイヤーが各モダリティを個別に処理する一方、その専用モジュールにルーティングされます。
。
テキスト固有のモジュールを凍結し、画像固有のモジュールのみをトレーニングすることにより、LMFusionは、強力な視覚的理解と生成能力を開発しながら、テキストのみのLLMの言語機能を保持します。
マルチモーダル生成モデルをゼロから前から取得する方法と比較して、我々の実験は、LMFusionがLLAMA-3の言語機能を維持しながら、フロップの50%のみを使用して20%、画像生成を3.6%改善することを示しています。
また、このフレームワークが既存のビジョン言語モデルをマルチモーダル生成能力で適応させることができることも実証しています。
全体として、このフレームワークは、テキストのみのLLMSへの既存の計算投資を活用するだけでなく、言語とビジョン機能の並行開発を可能にし、効率的なマルチモーダルモデル開発のための有望な方向を提示します。
要約(オリジナル)
We present LMFusion, a framework for empowering pretrained text-only large language models (LLMs) with multimodal generative capabilities, enabling them to understand and generate both text and images in arbitrary sequences. LMFusion leverages existing Llama-3’s weights for processing texts autoregressively while introducing additional and parallel transformer modules for processing images with diffusion. During training, the data from each modality is routed to its dedicated modules: modality-specific feedforward layers, query-key-value projections, and normalization layers process each modality independently, while the shared self-attention layers allow interactions across text and image features. By freezing the text-specific modules and only training the image-specific modules, LMFusion preserves the language capabilities of text-only LLMs while developing strong visual understanding and generation abilities. Compared to methods that pretrain multimodal generative models from scratch, our experiments demonstrate that, LMFusion improves image understanding by 20% and image generation by 3.6% using only 50% of the FLOPs while maintaining Llama-3’s language capabilities. We also demonstrate that this framework can adapt existing vision-language models with multimodal generation ability. Overall, this framework not only leverages existing computational investments in text-only LLMs but also enables the parallel development of language and vision capabilities, presenting a promising direction for efficient multimodal model development.
arxiv情報
著者 | Weijia Shi,Xiaochuang Han,Chunting Zhou,Weixin Liang,Xi Victoria Lin,Luke Zettlemoyer,Lili Yu |
発行日 | 2025-01-30 07:08:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google