Adversarial Score Distillation: When score distillation meets GAN

要約

既存のスコア蒸留法は、分類器のないガイダンス(CFG)スケールに対して敏感である。CFGスケールが小さい場合には、過度の平滑性や不安定性を示すが、CFGスケールが大きい場合には、過度の飽和を示す。これらの問題を説明し分析するために、我々はスコア蒸留サンプリング(SDS)の導出を再検討し、Wasserstein Generative Adversarial Network (WGAN)パラダイムを用いて既存のスコア蒸留を解読する。WGANパラダイムを用いることで、既存のスコア蒸留は、固定された最適でない識別器を用いるか、不完全な識別器の最適化を行うかのどちらかであり、その結果、スケールセンシティブな問題が生じることを発見した。我々は、最適化可能な識別器を維持し、完全な最適化目標を用いてそれを更新するAdversarial Score Distillation (ASD)を提案する。実験により、提案するASDは、2次元蒸留とテキストから3次元へのタスクにおいて、既存の手法に対して良好な性能を示す。さらに、我々のWGANパラダイムの一般化能力を探るために、ASDを画像編集タスクに拡張し、競争力のある結果を得た。プロジェクトページとコードはhttps://github.com/2y7c3/ASD。

要約(オリジナル)

Existing score distillation methods are sensitive to classifier-free guidance (CFG) scale: manifested as over-smoothness or instability at small CFG scales, while over-saturation at large ones. To explain and analyze these issues, we revisit the derivation of Score Distillation Sampling (SDS) and decipher existing score distillation with the Wasserstein Generative Adversarial Network (WGAN) paradigm. With the WGAN paradigm, we find that existing score distillation either employs a fixed sub-optimal discriminator or conducts incomplete discriminator optimization, resulting in the scale-sensitive issue. We propose the Adversarial Score Distillation (ASD), which maintains an optimizable discriminator and updates it using the complete optimization objective. Experiments show that the proposed ASD performs favorably in 2D distillation and text-to-3D tasks against existing methods. Furthermore, to explore the generalization ability of our WGAN paradigm, we extend ASD to the image editing task, which achieves competitive results. The project page and code are at https://github.com/2y7c3/ASD.

arxiv情報

著者 Min Wei,Jingkai Zhou,Junyao Sun,Xuesong Zhang
発行日 2023-12-01 17:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク