RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

要約

テキストから画像への生成は、最近目覚ましい成果を上げています。
RAPHAEL と呼ばれるテキスト条件付き画像拡散モデルを導入して、複数の名詞、形容詞、動詞を含むテキスト プロンプトを正確に描写する非常に芸術的な画像を生成します。
これは、数十の専門家混合 (MoE) レイヤー、つまり空間 MoE レイヤーと時間 MoE レイヤーを積み重ねることによって実現され、ネットワーク入力から出力までの数十億の拡散パス (ルート) を可能にします。
各パスは、拡散タイムステップで指定された画像領域上に特定のテキスト概念を描画するための「ペインター」として直感的に機能します。
包括的な実験により、RAPHAEL は、画質と美的魅力の両方の点で、Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2 などの最新の最先端モデルよりも優れていることが明らかになりました。
まず、RAPHAEL は、日本のコミック、リアリズム、サイバーパンク、インク イラストなど、さまざまなスタイルの画像を切り替える際に優れたパフォーマンスを発揮します。
次に、1,000 個の A100 GPU で 2 か月間トレーニングされた 30 億のパラメーターを持つ単一モデルは、COCO データセットで最先端のゼロショット FID スコア 6.61 を達成しました。
さらに、RAPHAEL は、ViLG-300 ベンチマークにおける人間による評価において、同等の製品を大幅に上回っています。
私たちは、RAPHAEL が学界と産業界の両方で画像生成研究の最前線を推進し、この急速に進化する分野における将来のブレークスルーへの道を開く可能性を秘めていると信じています。
詳細については、Web ページ https://miaohua.sensetime.com/en をご覧ください。

要約(オリジナル)

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a ‘painter’ for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://miaohua.sensetime.com/en.

arxiv情報

著者 Zeyue Xue,Guanglu Song,Qiushan Guo,Boxiao Liu,Zhuofan Zong,Yu Liu,Ping Luo
発行日 2023-07-11 09:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク