MultiStyleGAN: Multiple One-shot Image Stylizations using a Single GAN

要約

タイトル:MultiStyleGAN:単一GANを使用して複数のワンショット画像スタイリングを行う

要約:
– 画像スタイリングは、任意の入力画像にリファレンススタイルを適用することを目的としています。
– 一般的なシナリオは、ワンショットスタイリングであり、各リファレンススタイルに対して1つの例しか利用できません。
– JoJoGANなどの最近のワンショットスタイリング手法は、1つのスタイルリファレンス画像で事前にトレーニングされたStyleGAN2ジェネレータを微調整することを目的としています。
– ただし、このような方法では、スタイルを別々に微調整することなしに複数のスタイリングを生成することはできません。
– この論文では、単一のジェネレータを微調整することで複数の異なるスタイリングを同時に生成できるMultiStyleGAN手法を提案しています。
– 我々の方法の主要なコンポーネントは、スタイル変換ネットワークと呼ばれる学習可能な変換モジュールです。これは潜在的なコードを入力として受け取り、異なる潜在空間の異なる領域に対する線形マッピングを学習し、それぞれのスタイルに対して異なるコードを生成します。
– 我々のモデルは複数のスタイルでトレーニングされているため、オーバーフィットが緩和され、スタイリングの品質が向上します。
– 我々の方法は、最近の競合手法に比べて、トレーニング時間を8倍から60倍短縮することができます。
– ユーザースタディと定量的な結果により、既存の方法に対する有意義な改善が示されます。

要約(オリジナル)

Image stylization aims at applying a reference style to arbitrary input images. A common scenario is one-shot stylization, where only one example is available for each reference style. Recent approaches for one-shot stylization such as JoJoGAN fine-tune a pre-trained StyleGAN2 generator on a single style reference image. However, such methods cannot generate multiple stylizations without fine-tuning a new model for each style separately. In this work, we present a MultiStyleGAN method that is capable of producing multiple different stylizations at once by fine-tuning a single generator. The key component of our method is a learnable transformation module called Style Transformation Network. It takes latent codes as input, and learns linear mappings to different regions of the latent space to produce distinct codes for each style, resulting in a multistyle space. Our model inherently mitigates overfitting since it is trained on multiple styles, hence improving the quality of stylizations. Our method can learn upwards of $120$ image stylizations at once, bringing $8\times$ to $60\times$ improvement in training time over recent competing methods. We support our results through user studies and quantitative results that indicate meaningful improvements over existing methods.

arxiv情報

著者 Viraj Shah,Ayush Sarkar,Sudharsan Krishnakumar Anitha,Svetlana Lazebnik
発行日 2023-04-20 23:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク