Style-Content Disentanglement in Language-Image Pretraining Representations for Zero-Shot Sketch-to-Image Synthesis

要約

この作業では、トレーニングなしのゼロショットスケッチから画像への合成のために言語画像の事前トレーニング表現を活用するためのフレームワークを提案および検証します。
解きほぐされたコンテンツとスタイル表現を利用して、パラメーターを(再)トレーニングすることなく、画像ジェネレーターをスケッチから画像へのジェネレーターとして使用するようにガイドできることを示します。
スタイルとコンテンツを解きほぐすための私たちのアプローチは、入力スケッチの表現における情報の構成性を仮定した初等算術からなる単純な方法を必要とします。
私たちの結果は、このアプローチが、事前にトレーニングされた既製のモデルとデータの一部にのみ依存しながら、最先端のインスタンスレベルのオープンドメインのスケッチから画像へのモデルと競合することを示しています。

要約(オリジナル)

In this work, we propose and validate a framework to leverage language-image pretraining representations for training-free zero-shot sketch-to-image synthesis. We show that disentangled content and style representations can be utilized to guide image generators to employ them as sketch-to-image generators without (re-)training any parameters. Our approach for disentangling style and content entails a simple method consisting of elementary arithmetic assuming compositionality of information in representations of input sketches. Our results demonstrate that this approach is competitive with state-of-the-art instance-level open-domain sketch-to-image models, while only depending on pretrained off-the-shelf models and a fraction of the data.

arxiv情報

著者 Jan Zuiderveld
発行日 2022-06-03 16:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク