Repulsive Score Distillation for Diverse Sampling of Diffusion Models

要約

スコア蒸留サンプリングは、拡散モデルを複雑なビジュアルの生成に統合するために極めて重要です。
印象的な結果にもかかわらず、モードの崩壊と多様性の欠如に悩まされています。
この課題に対処するために、私たちはスコア蒸留の勾配流解釈を活用して、反発スコア蒸留 (RSD) を提案します。
特に、多様性を促進する粒子の集合体の反発に基づいた変分フレームワークを提案します。
粒子間の結合を組み込んだ変分近似を使用すると、斥力は、たとえば放射基底カーネルを介して測定される相対的なペアごとの類似性に基づいて粒子の相互作用を可能にする単純な規則化として現れます。
RSD は、制約のないサンプリング シナリオと制約のあるサンプリング シナリオの両方に合わせて設計されています。
制約付きサンプリングでは、計算、品質、多様性の間でバランスのとれた拡張変分定式化につながる潜在空間の逆問題に焦点を当てます。
テキストから画像への生成と逆問題に関する私たちの広範な実験は、RSD が最先端の代替手段と比較して、多様性と品質の間で優れたトレードオフを達成していることを実証しています。

要約(オリジナル)

Score distillation sampling has been pivotal for integrating diffusion models into generation of complex visuals. Despite impressive results it suffers from mode collapse and lack of diversity. To cope with this challenge, we leverage the gradient flow interpretation of score distillation to propose Repulsive Score Distillation (RSD). In particular, we propose a variational framework based on repulsion of an ensemble of particles that promotes diversity. Using a variational approximation that incorporates a coupling among particles, the repulsion appears as a simple regularization that allows interaction of particles based on their relative pairwise similarity, measured e.g., via radial basis kernels. We design RSD for both unconstrained and constrained sampling scenarios. For constrained sampling we focus on inverse problems in the latent space that leads to an augmented variational formulation, that strikes a good balance between compute, quality and diversity. Our extensive experiments for text-to-image generation, and inverse problems demonstrate that RSD achieves a superior trade-off between diversity and quality compared with state-of-the-art alternatives.

arxiv情報

著者 Nicolas Zilberstein,Morteza Mardani,Santiago Segarra
発行日 2024-06-24 14:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク