要約
従来の拡散モデルは、一般的にU-Netアーキテクチャを採用している。これまでの研究では、U-Netにおける注目ブロックの役割が明らかにされてきた。しかし、それらは推論過程における重要度の動的な変化を見落としており、画像アプリケーションを改善するためのさらなる活用を妨げている。本研究では、まず、U-Net内のTransformerブロックの出力を再重み付けすることが、サンプリングプロセス中のS/N比を改善するための「フリーランチ」であることを理論的に証明した。次に、ノイズ除去プロセスにおけるTransformerブロックの重要度の動的な変化を明らかにし、定量化するためのImportance Probeを提案した。最後に、特定の画像生成・編集タスクに合わせた適応的な重要度ベースの再重み付けスケジュールを設計する。実験結果は、我々のアプローチが推論プロセスの効率を大幅に改善し、同一性の一貫性を持つサンプルの美的品質を向上させることを示している。本手法は、あらゆるU-Netベースのアーキテクチャにシームレスに統合することができる。コード: https://github.com/Hytidel/UNetReweighting
要約(オリジナル)
Traditional diffusion models typically employ a U-Net architecture. Previous studies have unveiled the roles of attention blocks in the U-Net. However, they overlook the dynamic evolution of their importance during the inference process, which hinders their further exploitation to improve image applications. In this study, we first theoretically proved that, re-weighting the outputs of the Transformer blocks within the U-Net is a ‘free lunch’ for improving the signal-to-noise ratio during the sampling process. Next, we proposed Importance Probe to uncover and quantify the dynamic shifts in importance of the Transformer blocks throughout the denoising process. Finally, we design an adaptive importance-based re-weighting schedule tailored to specific image generation and editing tasks. Experimental results demonstrate that, our approach significantly improves the efficiency of the inference process, and enhances the aesthetic quality of the samples with identity consistency. Our method can be seamlessly integrated into any U-Net-based architecture. Code: https://github.com/Hytidel/UNetReweighting
arxiv情報
著者 | Xi Wang,Ziqi He,Yang Zhou |
発行日 | 2025-04-04 14:23:30+00:00 |
arxivサイト | arxiv_id(pdf) |