要約
拡散モデルは、高品質の画像を生成することに熟達しています。
ただし、トレーニング中に使用される解像度で動作する場合にのみ有効です。
スケーリングされた解像度での推論は、反復パターンと構造の歪みにつながります。
より高い解像度での再トレーニングはすぐに法外なものになります。
したがって、既存の拡散モデルが柔軟なテスト時間解像度で動作できるようにする方法が非常に望まれています。
以前の作品では頻繁にアーティファクトが発生し、大きなレイテンシ オーバーヘッドが発生することがよくありました。
これらの問題を解決するために組み合わせる 2 つの単純なモジュールを提案します。
フーリエ領域を活用して全体的な構造の一貫性を向上させる周波数変調 (FM) モジュールと、従来の研究ではほとんど無視されていた問題であるローカル テクスチャ パターンの一貫性を向上させるアテンション モジュレーション (AM) モジュールを導入します。
私たちの手法である Fam diffusion は、あらゆる潜在拡散モデルにシームレスに統合でき、追加のトレーニングは必要ありません。
広範な定性的結果は、構造的アーチファクトおよび局所的アーチファクトに対処する際の本手法の有効性を強調し、定量的結果は最先端のパフォーマンスを示します。
また、私たちの方法は、パッチベースまたはプログレッシブ生成などの一貫性を向上させるために冗長な推論トリックを回避し、レイテンシーのオーバーヘッドを無視できる程度に抑えます。
要約(オリジナル)
Diffusion models are proficient at generating high-quality images. They are however effective only when operating at the resolution used during training. Inference at a scaled resolution leads to repetitive patterns and structural distortions. Retraining at higher resolutions quickly becomes prohibitive. Thus, methods enabling pre-existing diffusion models to operate at flexible test-time resolutions are highly desirable. Previous works suffer from frequent artifacts and often introduce large latency overheads. We propose two simple modules that combine to solve these issues. We introduce a Frequency Modulation (FM) module that leverages the Fourier domain to improve the global structure consistency, and an Attention Modulation (AM) module which improves the consistency of local texture patterns, a problem largely ignored in prior works. Our method, coined Fam diffusion, can seamlessly integrate into any latent diffusion model and requires no additional training. Extensive qualitative results highlight the effectiveness of our method in addressing structural and local artifacts, while quantitative results show state-of-the-art performance. Also, our method avoids redundant inference tricks for improved consistency such as patch-based or progressive generation, leading to negligible latency overheads.
arxiv情報
著者 | Haosen Yang,Adrian Bulat,Isma Hadji,Hai X. Pham,Xiatian Zhu,Georgios Tzimiropoulos,Brais Martinez |
発行日 | 2024-11-27 17:51:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google