Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約

マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上しています。
彼らの驚くべき結果にもかかわらず、彼らは通常、いくつかのステップでの遅い推論に苦しんでいます。
この論文では、di $ \ mathtt {[m]} $ oを提案します。これは、マスクされた拡散モデルをワンステップジェネレーターに蒸留する新しいアプローチです。
di $ \ mathtt {[m]} $ o 2つの重要な課題に対処します。(1)1段階の生成に中間ステップ情報を使用することの操作性。これは、補助モデルの助けを借りて「オンポリティフレームワーク」によるモデル出力ロジットを最適化するトークンレベルの分布マッチングを通じて解決します。
(2)初期分布におけるエントロピーの欠如。これは、教師のトレーニング分布と類似性を維持しながらランダム性を注入するトークン初期化戦略を通じて対処します。
di $ \ mathtt {[m]} $ oのクラス条件付きおよびテキストコンディショナル画像生成の両方に対する有効性を示し、推論時間を大幅に削減しながら、マルチステップの教師の出力に対して競争力のあるパフォーマンスを印象的に達成します。
私たちの知る限り、私たちはマスクされた拡散モデルのワンステップ蒸留を成功裏に達成した最初の人物であり、テキストからイメージの生成に個別の蒸留を適用し、効率的な生成モデリングのための新しいパスを開きます。

要約(オリジナル)

Masked Diffusion Models (MDMs) have emerged as a powerful generative modeling technique. Despite their remarkable results, they typically suffer from slow inference with several steps. In this paper, we propose Di$\mathtt{[M]}$O, a novel approach that distills masked diffusion models into a one-step generator. Di$\mathtt{[M]}$O addresses two key challenges: (1) the intractability of using intermediate-step information for one-step generation, which we solve through token-level distribution matching that optimizes model output logits by an ‘on-policy framework’ with the help of an auxiliary model; and (2) the lack of entropy in the initial distribution, which we address through a token initialization strategy that injects randomness while maintaining similarity to teacher training distribution. We show Di$\mathtt{[M]}$O’s effectiveness on both class-conditional and text-conditional image generation, impressively achieving performance competitive to multi-step teacher outputs while drastically reducing inference time. To our knowledge, we are the first to successfully achieve one-step distillation of masked diffusion models and the first to apply discrete distillation to text-to-image generation, opening new paths for efficient generative modeling.

arxiv情報

著者 Yuanzhi Zhu,Xi Wang,Stéphane Lathuilière,Vicky Kalogeiton
発行日 2025-03-19 17:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク