Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

要約

拡散モデルは、さまざまな視覚生成タスクにわたって顕著な進歩を遂げています。
ただし、トレーニング中に使用されたものよりも高い解像度でコンテンツを生成すると、パフォーマンスは大幅に低下します。
高解像度の生成を可能にするために多くの方法が提案されていますが、それらはすべて非効率性に苦しんでいます。
この論文では、トレーニングのない高解像度合成のための簡単で効率的なソリューションである修正済みHRを提案します。
具体的には、モデルのトレーニングのない高解像度の合成能力を解き放ち、効率を向上させるノイズリフレッシュ戦略を提案します。
さらに、私たちはエネルギー崩壊の現象を観察した最初の人です。これは、高解像度の合成プロセス中に画像のぼやきを引き起こす可能性があります。
この問題に対処するために、平均潜在エネルギー分析を導入し、分類器のないガイダンスハイパーパラメーターを調整すると、生成パフォーマンスが大幅に向上する可能性があることがわかります。
私たちの方法は完全にトレーニングなしであり、効率的なパフォーマンスを示しています。
さらに、RectifiedHRは、画像編集、カスタマイズされた生成、ビデオ合成などの高度な機能を可能にするさまざまな拡散モデル手法と互換性があることを示しています。
多数のベースラインメソッドとの広範な比較により、修正されたHRの優れた効果と効率が検証されます。

要約(オリジナル)

Diffusion models have achieved remarkable progress across various visual generation tasks. However, their performance significantly declines when generating content at resolutions higher than those used during training. Although numerous methods have been proposed to enable high-resolution generation, they all suffer from inefficiency. In this paper, we propose RectifiedHR, a straightforward and efficient solution for training-free high-resolution synthesis. Specifically, we propose a noise refresh strategy that unlocks the model’s training-free high-resolution synthesis capability and improves efficiency. Additionally, we are the first to observe the phenomenon of energy decay, which may cause image blurriness during the high-resolution synthesis process. To address this issue, we introduce average latent energy analysis and find that tuning the classifier-free guidance hyperparameter can significantly improve generation performance. Our method is entirely training-free and demonstrates efficient performance. Furthermore, we show that RectifiedHR is compatible with various diffusion model techniques, enabling advanced features such as image editing, customized generation, and video synthesis. Extensive comparisons with numerous baseline methods validate the superior effectiveness and efficiency of RectifiedHR.

arxiv情報

著者 Zhen Yang,Guibao Shen,Minyang Li,Liang Hou,Mushui Liu,Luozhou Wang,Xin Tao,Pengfei Wan,Di Zhang,Ying-Cong Chen
発行日 2025-05-26 14:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク