Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting

要約

画像修復用のノイズ除去拡散確率モデルは、順方向プロセス中に画像のテクスチャにノイズを追加し、逆方向のノイズ除去プロセスを通じてマスクされた領域をテクスチャのマスクされていない領域で復元することを目的としています。意味のあるセマンティクスが生成されているにもかかわらず、既存の芸術はセマンティクスに悩まされています。
マスクされた領域とマスクされていない領域間の不一致。これは、意味的に密なマスクされていないテクスチャが完全に劣化することができず、マスクされた領域が拡散プロセスで純粋なノイズになるため、それらの間に大きな不一致が生じるためです。
この論文では、一貫性のある意味のあるセマンティクスの生成を促進するために、マスクされていないセマンティクスがテクスチャのノイズ除去プロセスをどのようにガイドするか、セマンティクスの不一致に対処する方法と併せて答えることを目的としています。
この目的を達成するために、我々はStrDiffusionという新しい構造誘導拡散モデルを提案し、構造誘導の下で従来のテクスチャノイズ除去プロセスを再定式化し、画像修復のための単純化されたノイズ除去目標を導出するとともに、次のことを明らかにした。1)意味論的に疎な構造は、意味論的問題に取り組むのに有益である。
初期段階では不一致が発生しますが、高密度テクスチャは後期段階で合理的なセマンティクスを生成します。2) マスクされていない領域からのセマンティクスは、基本的に、テクスチャのノイズ除去プロセスに時間依存の構造ガイダンスを提供し、構造セマンティクスの時間依存のスパース性の恩恵を受けます。
ノイズ除去プロセスでは、マスクされた領域とマスクされていない領域間のノイズ除去された構造の一貫性を利用することによって、単純化されたノイズ除去目標を推定するように構造ガイド型ニューラル ネットワークがトレーニングされます。さらに、構造がガイドする能力があるかどうかの正式な基準として適応リサンプリング戦略を考案します。
テクスチャのノイズ除去プロセスを実行し、セマンティック相関を調整します。広範な実験により、最先端技術を上回る StrDiffusion の利点が検証されています。私たちのコードは https://github.com/htyjers/StrDiffusion で入手できます。

要約(オリジナル)

Denoising diffusion probabilistic models for image inpainting aim to add the noise to the texture of image during the forward process and recover masked regions with unmasked ones of the texture via the reverse denoising process.Despite the meaningful semantics generation,the existing arts suffer from the semantic discrepancy between masked and unmasked regions, since the semantically dense unmasked texture fails to be completely degraded while the masked regions turn to the pure noise in diffusion process,leading to the large discrepancy between them. In this paper,we aim to answer how unmasked semantics guide texture denoising process;together with how to tackle the semantic discrepancy,to facilitate the consistent and meaningful semantics generation. To this end,we propose a novel structure-guided diffusion model named StrDiffusion,to reformulate the conventional texture denoising process under structure guidance to derive a simplified denoising objective for image inpainting,while revealing:1)the semantically sparse structure is beneficial to tackle semantic discrepancy in early stage, while dense texture generates reasonable semantics in late stage;2)the semantics from unmasked regions essentially offer the time-dependent structure guidance for the texture denoising process,benefiting from the time-dependent sparsity of the structure semantics.For the denoising process,a structure-guided neural network is trained to estimate the simplified denoising objective by exploiting the consistency of the denoised structure between masked and unmasked regions.Besides,we devise an adaptive resampling strategy as a formal criterion as whether structure is competent to guide the texture denoising process,while regulate their semantic correlations.Extensive experiments validate the merits of StrDiffusion over the state-of-the-arts.Our code is available at https://github.com/htyjers/StrDiffusion.

arxiv情報

著者 Haipeng Liu,Yang Wang,Biao Qian,Meng Wang,Yong Rui
発行日 2024-04-01 01:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク