Dreamguider: Improved Training free Diffusion-based Conditional Generation

要約

拡散モデルは、トレーニング不要の条件付き生成のための強力なツールとして登場しました。しかし、推論時ガイダンス技術における主なハードルは、ガイダンスの方向を推定するために拡散ネットワークを介した計算負荷の高いバックプロパゲーションが必要であることです。
さらに、これらの手法では、ケースバイケースでの手動のパラメータ調整が必要になることがよくあります。
最近の研究では、線形逆問題に対する最小限の計算手法が導入されていますが、線形および非線形ガイダンス問題の両方に対する汎用の軽量ガイダンス ソリューションはまだ存在していません。
この目的を達成するために、拡散ネットワークを介した計算負荷の高い逆伝播を行わずに推論時間のガイダンスを可能にする手法である Dreamguider を提案します。
重要なアイデアは、時間変化する要因によって勾配流を制御することです。
さらに、さまざまなタスクに適用できる経験的なガイダンス スケールを提案するため、手動でパラメータを調整する必要がなくなります。
さらに、推論時のガイダンス中のパフォーマンスを大幅に向上させる効果的な軽量拡張戦略を導入します。
提案されたモジュールの有効性を示すために、複数のデータセットとモデルにわたる複数のタスクで Dreamguider を使用した実験を紹介します。
さらなる研究を促進するために、レビュープロセス後にコードを公開します。

要約(オリジナル)

Diffusion models have emerged as a formidable tool for training-free conditional generation.However, a key hurdle in inference-time guidance techniques is the need for compute-heavy backpropagation through the diffusion network for estimating the guidance direction. Moreover, these techniques often require handcrafted parameter tuning on a case-by-case basis. Although some recent works have introduced minimal compute methods for linear inverse problems, a generic lightweight guidance solution to both linear and non-linear guidance problems is still missing. To this end, we propose Dreamguider, a method that enables inference-time guidance without compute-heavy backpropagation through the diffusion network. The key idea is to regulate the gradient flow through a time-varying factor. Moreover, we propose an empirical guidance scale that works for a wide variety of tasks, hence removing the need for handcrafted parameter tuning. We further introduce an effective lightweight augmentation strategy that significantly boosts the performance during inference-time guidance. We present experiments using Dreamguider on multiple tasks across multiple datasets and models to show the effectiveness of the proposed modules. To facilitate further research, we will make the code public after the review process.

arxiv情報

著者 Nithin Gopalakrishnan Nair,Vishal M Patel
発行日 2024-06-04 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク