A Structure-Guided Diffusion Model for Large-Hole Diverse Image Completion


画像の不完全な領域 (つまり、穴) を埋めるさまざまな方法を生成する問題である多様な画像補完は、目覚ましい成功を収めています。
提案された SGDM は、構造ジェネレーターとテクスチャ ジェネレーターで構成され、どちらも拡散確率モデル (DM) です。
これら 2 つのジェネレーターを共同でトレーニングするために、最適なベイジアン ノイズ除去とモーメンタム フレームワークを組み合わせた戦略を設計します。
顔のデータセット (CelebA-HQ) と自然のシーン (Places) を使用した実験では、他の最先端の方法と比較して、私たちの方法が視覚的な品質と多様性の間で同等または優れたトレードオフを達成することが示されています。


Diverse image completion, a problem of generating various ways of filling incomplete regions (i.e. holes) of an image, has made remarkable success. However, managing input images with large holes is still a challenging problem due to the corruption of semantically important structures. In this paper, we tackle this problem by incorporating explicit structural guidance. We propose a structure-guided diffusion model (SGDM) for the large-hole diverse completion problem. Our proposed SGDM consists of a structure generator and a texture generator, which are both diffusion probabilistic models (DMs). The structure generator generates an edge image representing a plausible structure within the holes, which is later used to guide the texture generation process. To jointly train these two generators, we design a strategy that combines optimal Bayesian denoising and a momentum framework. In addition to the quality improvement, auxiliary edge images generated by the structure generator can be manually edited to allow user-guided image editing. Our experiments using datasets of faces (CelebA-HQ) and natural scenes (Places) show that our method achieves a comparable or superior trade-off between visual quality and diversity compared to other state-of-the-art methods.


著者 Daichi Horita,Jiaolong Yang,Dong Chen,Yuki Koyama,Kiyoharu Aizawa
発行日 2022-11-18 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク