Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

要約

小さな拡散モデルを使用して大きな画像を生成すると、大規模なモデルのトレーニングコストが法外になる可能性があるため、人気が高まっています。
一般的なアプローチでは、一連のオーバーラップ画像パッチを共同で生成し、隣接するパッチをマージして大きな画像を取得することが含まれます。
ただし、既存の方法の結果は、多くの場合、目立ったアーティファクト、たとえば縫い目や一貫性のないオブジェクトやスタイルを示します。
問題に対処するために、ガイド付き融合(GF)を提案しました。これは、重み付き平均を重複領域に適用することにより、遠い画像領域からのマイナスの影響を軽減します。
さらに、分散補正融合(VCF)を提案しました。これは、平均後のデータ分散を修正し、拡散性確率モデルの除去により正確な融合を生成します。
さらに、ワンショットスタイルのアラインメント(SA)を提案しました。これは、計算上の負担を追加せずに初期入力ノイズを調整することにより、大きな画像のコヒーレントスタイルを生成します。
広範な実験により、提案された融合方法により、生成された画像の品質が大幅に向上することが実証されました。
提案された方法は、大きな画像生成のための他の融合ベースの方法を強化するために、プラグアンドプレイモジュールとして広く適用できます。
コード:https://github.com/titorx/gvcfdiffusion

要約(オリジナル)

Producing large images using small diffusion models is gaining increasing popularity, as the cost of training large models could be prohibitive. A common approach involves jointly generating a series of overlapped image patches and obtaining large images by merging adjacent patches. However, results from existing methods often exhibit noticeable artifacts, e.g., seams and inconsistent objects and styles. To address the issues, we proposed Guided Fusion (GF), which mitigates the negative impact from distant image regions by applying a weighted average to the overlapping regions. Moreover, we proposed Variance-Corrected Fusion (VCF), which corrects data variance at post-averaging, generating more accurate fusion for the Denoising Diffusion Probabilistic Model. Furthermore, we proposed a one-shot Style Alignment (SA), which generates a coherent style for large images by adjusting the initial input noise without adding extra computational burden. Extensive experiments demonstrated that the proposed fusion methods improved the quality of the generated image significantly. The proposed method can be widely applied as a plug-and-play module to enhance other fusion-based methods for large image generation. Code: https://github.com/TitorX/GVCFDiffusion

arxiv情報

著者 Shoukun Sun,Min Xian,Tiankai Yao,Fei Xu,Luca Capriotti
発行日 2025-02-10 18:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク