要約
手書きの絵から画像を生成することは、コンテンツ作成において重要かつ基本的な作業です。
無限の可能性が存在し、異なるユーザーは通常異なる結果を期待するため、翻訳は困難です。
したがって、拡散モデルに基づくスケッチとストロークからの画像合成の 3 次元制御をサポートする統一されたフレームワークを提案します。
ユーザー入力は通常、実際の画像と一致しないため、ユーザーは入力ストロークやスケッチに対する忠実度だけでなく、リアリズムの程度も決定できます。
質的および量的実験は、私たちのフレームワークが最先端のパフォーマンスを達成すると同時に、形状、色、およびリアリズムを制御してカスタマイズされた画像を生成する柔軟性を提供することを示しています。
さらに、私たちの方法は、実際の画像の編集、部分的なスケッチとストロークによる生成、マルチドメインのマルチモーダル合成などのアプリケーションを解き放ちます。
要約(オリジナル)
Generating images from hand-drawings is a crucial and fundamental task in content creation. The translation is difficult as there exist infinite possibilities and the different users usually expect different outcomes. Therefore, we propose a unified framework supporting a three-dimensional control over the image synthesis from sketches and strokes based on diffusion models. Users can not only decide the level of faithfulness to the input strokes and sketches, but also the degree of realism, as the user inputs are usually not consistent with the real images. Qualitative and quantitative experiments demonstrate that our framework achieves state-of-the-art performance while providing flexibility in generating customized images with control over shape, color, and realism. Moreover, our method unleashes applications such as editing on real images, generation with partial sketches and strokes, and multi-domain multi-modal synthesis.
arxiv情報
著者 | Shin-I Cheng,Yu-Jie Chen,Wei-Chen Chiu,Hung-Yu Tseng,Hsin-Ying Lee |
発行日 | 2022-09-01 04:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google