Muse: Text-To-Image Generation via Masked Generative Transformers

要約

Muse は、拡散モデルや自己回帰モデルよりもはるかに効率的でありながら、最先端の画像生成パフォーマンスを実現するテキストから画像への Transformer モデルです。
Muse は、個別のトークン空間でマスクされたモデリング タスクでトレーニングされます。事前にトレーニングされた大規模言語モデル (LLM) から抽出されたテキスト埋め込みが与えられると、Muse はランダムにマスクされた画像トークンを予測するようにトレーニングされます。
Imagen や DALL-E 2 などのピクセル空間拡散モデルと比較して、Muse は離散トークンを使用し、必要なサンプリング反復が少ないため、大幅に効率的です。
Parti などの自己回帰モデルと比較して、Muse は並列デコードを使用するため、より効率的です。
事前トレーニング済みの LLM を使用することで、きめ細かな言語理解、忠実度の高い画像生成への変換、およびオブジェクト、それらの空間関係、ポーズ、カーディナリティなどの視覚的概念の理解が可能になります。当社の 900M パラメータ モデルは、
CC3M、FID スコア 6.06。
Muse 3B パラメータ モデルは、0.32 の CLIP スコアとともに、ゼロ ショット COCO 評価で 7.88 の FID を達成します。
また、Muse は、モデルの微調整や反転を必要とせずに、多くの画像編集アプリケーション (インペインティング、アウトペインティング、マスクフリー編集) を直接有効にします。
その他の結果は、https://muse-model.github.io で入手できます。

要約(オリジナル)

We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io

arxiv情報

著者 Huiwen Chang,Han Zhang,Jarred Barber,AJ Maschinot,Jose Lezama,Lu Jiang,Ming-Hsuan Yang,Kevin Murphy,William T. Freeman,Michael Rubinstein,Yuanzhen Li,Dilip Krishnan
発行日 2023-01-02 14:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク