要約
CoGSは、スタイルが調整されたスケッチ駆動型の画像合成のための新しい方法です。
CoGSを使用すると、特定のスケッチオブジェクトのさまざまな外観の可能性を探ることができ、出力の構造と外観を個別に制御できます。
オブジェクトの構造と外観の大まかな制御は、入力スケッチと、トランスフォーマーベースのスケッチとスタイルエンコーダーへの模範的な「スタイル」調整画像を介して有効になり、個別のコードブック表現を生成します。
コードブック表現を距離空間にマッピングし、ベクトル量子化GAN(VQGAN)デコーダーを介して画像を生成する前に、複数の合成オプション間の選択と補間をきめ細かく制御できるようにします。
これにより、私たちのフレームワークは検索と合成のタスクを統合します。スケッチとスタイルのペアを使用して初期合成を実行し、検索コーパスで同様の結果と組み合わせて、ユーザーの意図により近い画像を生成することができます。
新しく作成したPseudosketchesデータセットの125個のオブジェクトクラスでトレーニングされたモデルが、多様な色域のセマンティックコンテンツと外観スタイルを生成できることを示します。
要約(オリジナル)
We present CoGS, a novel method for the style-conditioned, sketch-driven synthesis of images. CoGS enables exploration of diverse appearance possibilities for a given sketched object, enabling decoupled control over the structure and the appearance of the output. Coarse-grained control over object structure and appearance are enabled via an input sketch and an exemplar ‘style’ conditioning image to a transformer-based sketch and style encoder to generate a discrete codebook representation. We map the codebook representation into a metric space, enabling fine-grained control over selection and interpolation between multiple synthesis options before generating the image via a vector quantized GAN (VQGAN) decoder. Our framework thereby unifies search and synthesis tasks, in that a sketch and style pair may be used to run an initial synthesis which may be refined via combination with similar results in a search corpus to produce an image more closely matching the user’s intent. We show that our model, trained on the 125 object classes of our newly created Pseudosketches dataset, is capable of producing a diverse gamut of semantic content and appearance styles.
arxiv情報
著者 | Cusuh Ham,Gemma Canet Tarres,Tu Bui,James Hays,Zhe Lin,John Collomosse |
発行日 | 2022-07-20 14:26:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google