aMUSEd: An Open MUSE Reproduction

要約

aMUSEdは、MUSEをベースとしたテキスト画像生成のためのオープンソースの軽量マスク画像モデル(MIM)です。aMUSEdはMUSEの10%のパラメータで、高速な画像生成に焦点を当てています。MIMは、テキスト画像生成のための一般的なアプローチである潜在拡散と比較して、十分に研究されていないと考えています。潜在拡散に比べ、MIMは推論ステップが少なく、解釈しやすい。さらに、MIMは、1枚の画像だけで追加のスタイルを学習するように微調整することができる。我々は、大規模なテキストから画像への生成におけるMIMの有効性を実証し、再現可能な学習コードを公開することで、MIMのさらなる探求を促したいと考えている。また、256×256と512×512の解像度の画像を直接生成する2つのモデルのチェックポイントも公開します。

要約(オリジナル)

We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE’s parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256×256 and 512×512 resolutions.

arxiv情報

著者 Suraj Patil,William Berman,Robin Rombach,Patrick von Platen
発行日 2024-01-03 16:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク