DiffiT: Diffusion Vision Transformers for Image Generation

要約

強力な表現力と高いサンプル品質を持つ拡散モデルは、様々な領域における多くの新しいアプリケーションやユースケースを可能にしてきた。サンプル生成のために、これらのモデルは、反復ノイズ除去によって画像を生成するノイズ除去ニューラルネットワークに依存している。しかし、ノイズ除去ネットワークのアーキテクチャの役割についてはあまり研究されておらず、ほとんどの取り組みが畳み込み残差U-Netに依存している。本論文では、拡散に基づく生成学習における視覚変換器の有効性を研究する。具体的には、U字型エンコーダとデコーダを持つハイブリッド階層アーキテクチャからなる、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。このモデルは、U字型エンコーダとデコーダを持つハイブリッド階層アーキテクチャから構成される。我々は、時間依存の新しい自己注意モジュールを導入し、注意層がノイズ除去プロセスの異なる段階において、効率的な方法でその振る舞いを適応させることを可能にする。また、高解像度画像生成のために、提案した自己注意層を持つ変換器モデルからなる潜在的なDiffiTを導入する。我々の結果は、DiffiTが高忠実度画像の生成において驚くほど効果的であることを示しており、様々なクラス条件合成タスクや無条件合成タスクにおいて、最先端のベンチマーク(SOTA)を達成している。潜在空間において、DiffiTはImageNet-256データセットで1.73という新しいSOTA FIDスコアを達成しています。リポジトリ: https://github.com/NVlabs/DiffiT

要約(オリジナル)

Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT

arxiv情報

著者 Ali Hatamizadeh,Jiaming Song,Guilin Liu,Jan Kautz,Arash Vahdat
発行日 2023-12-04 18:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク