All are Worth Words: A ViT Backbone for Diffusion Models

要約

ヴィジョントランスフォーマー(ViT)は、様々な視覚タスクにおいて有望視されているが、拡散モデルでは畳み込みニューラルネットワーク(CNN)に基づくU-Netが依然として主流である。我々は、拡散モデルを用いた画像生成のために、シンプルで一般的なViTベースのアーキテクチャ(U-ViTと命名)を設計する。U-ViTは、時間、条件、ノイズの多い画像パッチを含むすべての入力をトークンとして扱い、浅層と深層の間に長いスキップ接続を採用することを特徴とする。無条件画像生成、クラス条件画像生成、およびテキストから画像への生成タスクでU-ViTを評価したところ、U-ViTは同規模のCNNベースのU-Netと比較して、優れているとは言えないまでも同等であった。特に、U-ViTを用いた潜在拡散モデルは、生成モデルの学習中に大規模な外部データセットにアクセスすることなく、ImageNet 256×256のクラス条件付き画像生成で2.29、MS-COCOのテキスト画像生成で5.48という記録的なFIDスコアを達成している。この結果から、拡散に基づく画像モデリングでは、CNNベースのU-Netにおけるダウンサンプリングとアップサンプリングの演算子は必ずしも必要ではないが、ロングスキップコネクションが重要であることが示唆されました。U-ViTは、拡散モデルのバックボーンに関する今後の研究に示唆を与え、大規模なクロスモダリティデータセットの生成モデリングに役立つと考えられる。

要約(オリジナル)

Vision transformers (ViT) have shown promise in various vision tasks while the U-Net based on a convolutional neural network (CNN) remains dominant in diffusion models. We design a simple and general ViT-based architecture (named U-ViT) for image generation with diffusion models. U-ViT is characterized by treating all inputs including the time, condition and noisy image patches as tokens and employing long skip connections between shallow and deep layers. We evaluate U-ViT in unconditional and class-conditional image generation, as well as text-to-image generation tasks, where U-ViT is comparable if not superior to a CNN-based U-Net of a similar size. In particular, latent diffusion models with U-ViT achieve record-breaking FID scores of 2.29 in class-conditional image generation on ImageNet 256×256, and 5.48 in text-to-image generation on MS-COCO, among methods without accessing large external datasets during the training of generative models. Our results suggest that, for diffusion-based image modeling, the long skip connection is crucial while the down-sampling and up-sampling operators in CNN-based U-Net are not always necessary. We believe that U-ViT can provide insights for future research on backbones in diffusion models and benefit generative modeling on large scale cross-modality datasets.

arxiv情報

著者 Fan Bao,Shen Nie,Kaiwen Xue,Yue Cao,Chongxuan Li,Hang Su,Jun Zhu
発行日 2023-03-06 18:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク