要約
我々は、さまざまな視覚および言語タスクを実行できるマルチモーダル自己回帰モデルのファミリーである Lumina-mGPT を紹介します。特に、テキストの説明から柔軟なフォトリアリスティックな画像を生成することに優れています。
既存の自己回帰画像生成アプローチとは異なり、Lumina-mGPT は、マルチモーダル トークン シーケンスをモデル化するための統合フレームワークとして、事前トレーニングされたデコーダー専用トランスフォーマーを採用しています。
私たちの重要な洞察は、大規模なインターリーブされたテキスト画像シーケンスに対するネクストトークン予測目標を利用する、マルチモーダル生成事前トレーニング (mGPT) を備えたシンプルなデコーダー専用トランスフォーマーが、広範で一般的なマルチモーダル機能を学習し、それによってフォトリアリスティックなテキストから画像への変換を可能にするということです。
世代。
これらの事前トレーニング済みモデルに基づいて、高品質の画像とテキストのペアに対する Flexible Progressive Supervised Finetuning (FP-SFT) を提案します。これにより、一般的なマルチモーダル機能を維持しながら、あらゆる解像度で審美性の高い画像合成の可能性を完全に解き放つことができます。
さらに、Ominiponent Supervised Finetuning (Omni-SFT) を導入し、Lumina-mGPT を全能タスクの統合をシームレスに実現する基盤モデルに変換します。
結果として得られるモデルは、柔軟なテキストから画像への生成や制御可能な生成などの視覚生成タスク、セグメンテーションや奥行き推定などの視覚認識タスク、マルチターン視覚的質問応答などの視覚言語タスクを含む、多用途のマルチモーダル機能を実証します。
さらに、拡散ベースの手法と自己回帰手法の違いと類似点を直接比較して分析します。
要約(オリジナル)
We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.
arxiv情報
著者 | Dongyang Liu,Shitian Zhao,Le Zhuo,Weifeng Lin,Yu Qiao,Hongsheng Li,Peng Gao |
発行日 | 2024-08-05 17:46:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google