要約
蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比較して、ベースのカウンターパートです。
この作業では、この多様性の損失にもかかわらず、蒸留モデルがベースモデルの基本的な概念表現を保持していることを明らかにします。
コントロール蒸留を示します – ベースモデルでトレーニングされた概念スライダーやLORASなどの制御メカニズムをシームレスに蒸留モデルに転送し、その逆に、再訓練なしで効果的にコントロールを蒸留することができます。
この表現構造の保存により、蒸留中の多様性崩壊のメカニズムに関する調査が促されました。
蒸留が多様性にどのように影響するかを理解するために、モデルが中間ステップで最終出力を予測する方法を明らかにする分析とデバッグツールである拡散ターゲット(DT)の視覚化を導入します。
DT視覚化を通じて、世代のアーティファクト、矛盾を特定し、初期の拡散時のタイムステップが出力の多様性を不釣り合いに決定し、その後のステップが主に詳細を改善することを実証します。
これらの洞察に基づいて、多様性の蒸留を導入します。これは、効率的な蒸留モデルに移行する前に、最初の批判的なタイムステップのみに基本モデルを戦略的に使用するハイブリッド推論アプローチです。
私たちの実験は、この単純な変更により、多様性能力が基本モデルから蒸留モデルへの能力を回復するだけでなく、驚くべきことにそれを超え、蒸留推論のほぼ計算効率を維持し、すべて追加のトレーニングやモデルの変更を必要とせずに維持することを示しています。
私たちのコードとデータは、https://distillation.baulab.infoで入手できます
要約(オリジナル)
Distilled diffusion models suffer from a critical limitation: reduced sample diversity compared to their base counterparts. In this work, we uncover that despite this diversity loss, distilled models retain the fundamental concept representations of base models. We demonstrate control distillation – where control mechanisms like Concept Sliders and LoRAs trained on base models can be seamlessly transferred to distilled models and vice-versa, effectively distilling control without any retraining. This preservation of representational structure prompted our investigation into the mechanisms of diversity collapse during distillation. To understand how distillation affects diversity, we introduce Diffusion Target (DT) Visualization, an analysis and debugging tool that reveals how models predict final outputs at intermediate steps. Through DT-Visualization, we identify generation artifacts, inconsistencies, and demonstrate that initial diffusion timesteps disproportionately determine output diversity, while later steps primarily refine details. Based on these insights, we introduce diversity distillation – a hybrid inference approach that strategically employs the base model for only the first critical timestep before transitioning to the efficient distilled model. Our experiments demonstrate that this simple modification not only restores the diversity capabilities from base to distilled models but surprisingly exceeds it, while maintaining nearly the computational efficiency of distilled inference, all without requiring additional training or model modifications. Our code and data are available at https://distillation.baulab.info
arxiv情報
著者 | Rohit Gandikota,David Bau |
発行日 | 2025-03-13 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google