要約
拡散モデルの最近のガイダンス方法は、モデルを摂動させて暗黙の弱いモデルを構築し、そこから生成をガイドすることにより逆サンプリングを操作します。
これらのアプローチの中で、注意摂動は、分類器のないガイダンスが適用されない無条件のシナリオで強力な経験的パフォーマンスを実証しています。
ただし、既存の注意摂動方法には、特に拡散トランス(DIT)アーキテクチャでの摂動が適用される場所を決定するための原則的なアプローチがありません。
この論文では、レイヤーレベルから個々の注意ヘッドに至るまで、注意摂動の粒度を調査し、特定のヘッドが構造、スタイル、テクスチャの品質などの明確な視覚概念を支配することを発見します。
この洞察に基づいて、「ヘッドハンター」を提案します。これは、ユーザー中心の目標と整合する注意ヘッドを繰り返し選択するための体系的なフレームワークであり、世代の品質と視覚属性をきれいに制御できるようにします。
さらに、選択した各ヘッドの注意マップをアイデンティティマトリックスに直線的に補間するソフトパグを導入し、連続ノブを提供して摂動強度を調整し、アーティファクトを抑制します。
私たちのアプローチは、既存のレイヤーレベルの摂動の過剰な問題を軽減するだけでなく、構成ヘッド選択を通じて特定の視覚スタイルの標的操作を可能にします。
安定した拡散3やフラックス1を含む最新の大規模なDITベースのテキストから画像モデルでの方法を検証し、一般的な品質向上とスタイル固有のガイダンスの両方で優れたパフォーマンスを実証します。
私たちの研究は、拡散モデルにおける注意摂動の最初のヘッドレベル分析を提供し、注意層内の解釈可能な専門化を明らかにし、効果的な摂動戦略の実用的な設計を可能にします。
要約(オリジナル)
Recent guidance methods in diffusion models steer reverse sampling by perturbing the model to construct an implicit weak model and guide generation away from it. Among these approaches, attention perturbation has demonstrated strong empirical performance in unconditional scenarios where classifier-free guidance is not applicable. However, existing attention perturbation methods lack principled approaches for determining where perturbations should be applied, particularly in Diffusion Transformer (DiT) architectures where quality-relevant computations are distributed across layers. In this paper, we investigate the granularity of attention perturbations, ranging from the layer level down to individual attention heads, and discover that specific heads govern distinct visual concepts such as structure, style, and texture quality. Building on this insight, we propose ‘HeadHunter’, a systematic framework for iteratively selecting attention heads that align with user-centric objectives, enabling fine-grained control over generation quality and visual attributes. In addition, we introduce SoftPAG, which linearly interpolates each selected head’s attention map toward an identity matrix, providing a continuous knob to tune perturbation strength and suppress artifacts. Our approach not only mitigates the oversmoothing issues of existing layer-level perturbation but also enables targeted manipulation of specific visual styles through compositional head selection. We validate our method on modern large-scale DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1, demonstrating superior performance in both general quality enhancement and style-specific guidance. Our work provides the first head-level analysis of attention perturbation in diffusion models, uncovering interpretable specialization within attention layers and enabling practical design of effective perturbation strategies.
arxiv情報
著者 | Donghoon Ahn,Jiwon Kang,Sanghyun Lee,Minjae Kim,Jaewon Min,Wooseok Jang,Saungwu Lee,Sayak Paul,Susung Hong,Seungryong Kim |
発行日 | 2025-06-12 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google