要約
画像合成では成功しているにもかかわらず、拡散確率モデル (DPM) には画像内のオブジェクト部分間の関係を学習する文脈推論能力が欠けていることが多く、学習プロセスが遅くなることが観察されています。
この問題を解決するために、画像内のオブジェクトの意味部分間の文脈関係学習に対する DPM の能力を明示的に強化するマスク潜在モデリング スキームを導入するマスク拡散変換器 (MDT) を提案します。
トレーニング中、MDT は潜在空間で動作して特定のトークンをマスクします。
次に、非対称拡散変換器は、拡散生成プロセスを維持しながら、マスクされたトークンをマスクされていないトークンから予測するように設計されています。
私たちの MDT は、不完全なコンテキスト入力から画像の完全な情報を再構築できるため、画像トークン間の関連関係を学習できるようになります。
私たちは、MDTv2 と呼ばれる、より効率的なマクロ ネットワーク構造とトレーニング戦略によって MDT をさらに改良しました。
実験結果は、MDTv2 が優れた画像合成パフォーマンス (たとえば、ImageNet データセットで 1.58 という新しい SOTA FID スコア) を達成し、以前の SOTA DiT よりも 10 倍以上速い学習速度を備えていることを示しています。
ソースコードは https://github.com/sail-sg/MDT で公開されています。
要約(オリジナル)
Despite its success in image synthesis, we observe that diffusion probabilistic models (DPMs) often lack contextual reasoning ability to learn the relations among object parts in an image, leading to a slow learning process. To solve this issue, we propose a Masked Diffusion Transformer (MDT) that introduces a mask latent modeling scheme to explicitly enhance the DPMs’ ability to contextual relation learning among object semantic parts in an image. During training, MDT operates in the latent space to mask certain tokens. Then, an asymmetric diffusion transformer is designed to predict masked tokens from unmasked ones while maintaining the diffusion generation process. Our MDT can reconstruct the full information of an image from its incomplete contextual input, thus enabling it to learn the associated relations among image tokens. We further improve MDT with a more efficient macro network structure and training strategy, named MDTv2. Experimental results show that MDTv2 achieves superior image synthesis performance, e.g., a new SOTA FID score of 1.58 on the ImageNet dataset, and has more than 10x faster learning speed than the previous SOTA DiT. The source code is released at https://github.com/sail-sg/MDT.
arxiv情報
著者 | Shanghua Gao,Pan Zhou,Ming-Ming Cheng,Shuicheng Yan |
発行日 | 2024-02-21 15:45:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google