要約
私たちは、マルチモーダル生成機能を備えた事前トレーニング済みのテキスト専用大規模言語モデル (LLM) を強化するフレームワークである LlamaFusion を紹介します。これにより、テキストと画像の両方を任意のシーケンスで理解して生成できるようになります。
LlamaFusion は、既存の Llama-3 の重みを利用してテキストを自己回帰的に処理すると同時に、拡散を使用して画像を処理するための追加の並列変換モジュールを導入します。
トレーニング中、各モダリティからのデータは専用モジュールにルーティングされます。モダリティ固有のフィードフォワード レイヤー、クエリ キー値の射影、および正規化レイヤーは各モダリティを個別に処理し、共有セルフ アテンション レイヤーによりテキストと画像の特徴にわたる対話が可能になります。
。
テキスト固有のモジュールを凍結し、画像固有のモジュールのみをトレーニングすることにより、LlamaFusion はテキストのみの LLM の言語機能を維持しながら、強力な視覚的理解と生成能力を開発します。
マルチモーダル生成モデルを最初から事前トレーニングする方法と比較して、LlamaFusion は Llama-3 の言語機能を維持しながら、FLOP の 50% のみを使用して画像理解が 20%、画像生成が 3.6% 向上することが実験で実証されました。
また、このフレームワークがマルチモーダル生成機能を備えた既存のビジョン言語モデルを適応できることも示します。
全体として、このフレームワークはテキスト専用 LLM への既存の計算投資を活用するだけでなく、言語機能と視覚機能の並行開発も可能にし、効率的なマルチモーダル モデル開発の有望な方向性を示します。
要約(オリジナル)
We present LlamaFusion, a framework for empowering pretrained text-only large language models (LLMs) with multimodal generative capabilities, enabling them to understand and generate both text and images in arbitrary sequences. LlamaFusion leverages existing Llama-3’s weights for processing texts autoregressively while introducing additional and parallel transformer modules for processing images with diffusion. During training, the data from each modality is routed to its dedicated modules: modality-specific feedforward layers, query-key-value projections, and normalization layers process each modality independently, while the shared self-attention layers allow interactions across text and image features. By freezing the text-specific modules and only training the image-specific modules, LlamaFusion preserves the language capabilities of text-only LLMs while developing strong visual understanding and generation abilities. Compared to methods that pretrain multimodal generative models from scratch, our experiments demonstrate that, LlamaFusion improves image understanding by 20% and image generation by 3.6% using only 50% of the FLOPs while maintaining Llama-3’s language capabilities. We also demonstrate that this framework can adapt existing vision-language models with multimodal generation ability. Overall, this framework not only leverages existing computational investments in text-only LLMs but also enables the parallel development of language and vision capabilities, presenting a promising direction for efficient multimodal model development.
arxiv情報
著者 | Weijia Shi,Xiaochuang Han,Chunting Zhou,Weixin Liang,Xi Victoria Lin,Luke Zettlemoyer,Lili Yu |
発行日 | 2024-12-19 18:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google