要約
テキストガイダンスを使用したシーンレベルのスケッチから写真への合成方法を提案します。
オブジェクト レベルのスケッチから写真への合成は広く研究されていますが、シーン全体の合成は、ターゲット スタイルを適切に反映する参照写真がなければ依然として困難です。
この目的のために、最近の大規模な事前トレーニング済みの生成モデルからの知識を活用し、参照画像を必要とせずにテキストガイド付きのスケッチから写真への合成を実現します。
モデルをトレーニングするために、一連の写真からの自己教師あり学習を使用します。
具体的には、カラー画像とスケッチ画像の両方を標準化されたエッジ ドメインにマッピングする事前トレーニング済みのエッジ検出器を使用します。これにより、写真ベースのエッジ画像 (トレーニング中) と手描きのスケッチ画像 (推論中) の間のギャップが減少します。
スケッチとテキスト条件を使用して潜在拡散モデル (つまり、安定拡散) を微調整することにより、この方法を実装します。
実験は、提案された方法が、カラー画像から抽出されていない元のスケッチ画像を説得力のある視覚的品質の写真に変換することを示しています。
要約(オリジナル)
We propose a method for scene-level sketch-to-photo synthesis with text guidance. Although object-level sketch-to-photo synthesis has been widely studied, whole-scene synthesis is still challenging without reference photos that adequately reflect the target style. To this end, we leverage knowledge from recent large-scale pre-trained generative models, resulting in text-guided sketch-to-photo synthesis without the need for reference images. To train our model, we use self-supervised learning from a set of photographs. Specifically, we use a pre-trained edge detector that maps both color and sketch images into a standardized edge domain, which reduces the gap between photograph-based edge images (during training) and hand-drawn sketch images (during inference). We implement our method by fine-tuning a latent diffusion model (i.e., Stable Diffusion) with sketch and text conditions. Experiments show that the proposed method translates original sketch images that are not extracted from color images into photos with compelling visual quality.
arxiv情報
著者 | AprilPyone MaungMaung,Makoto Shing,Kentaro Mitsui,Kei Sawada,Fumio Okura |
発行日 | 2023-02-14 08:13:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google