Controlling the Output of a Generative Model by Latent Feature Vector Shifting

要約

最先端の生成モデル (例: StyleGAN3 \cite{karras2021alias}) は、多くの場合、潜在空間からサンプリングされたベクトルに基づいてフォトリアリスティックな画像を生成します。
ただし、出力を制御する機能には制限があります。
ここでは、生成された画像の意味的特徴を利用して制御された出力画像を変更するための潜在ベクトルシフトの新しい方法を紹介します。
私たちのアプローチでは、比較的高解像度でリアルな人間の顔の画像を生成する StyleGAN3 の事前トレーニング済みモデルを使用します。
CelebA データセットからのバイナリ顔特徴を使用して生成された画像を分類するようにトレーニングされた畳み込みニューラル ネットワーク分類器、つまり ResNet34 で生成モデルを補完します。
私たちの潜在特徴シフターは、生成モデルの潜在ベクトルを指定された特徴の方向にシフトするタスクを備えたニューラル ネットワーク モデルです。
私たちは、複数の顔の特徴に対して潜在的な特徴シフターをトレーニングし、目的の特徴を備えた生成された画像の数においてベースライン手法を上回りました。
潜在特徴シフター ニューラル ネットワークをトレーニングするために、特定の特徴を含む潜在ベクトルと含まない潜在ベクトルのペアのデータセットを設計しました。
評価に基づいて、私たちの潜在特徴シフター アプローチは、StyleGAN3 ジェネレーターの制御された生成において成功したと結論付けます。

要約(オリジナル)

State-of-the-art generative models (e.g. StyleGAN3 \cite{karras2021alias}) often generate photorealistic images based on vectors sampled from their latent space. However, the ability to control the output is limited. Here we present our novel method for latent vector shifting for controlled output image modification utilizing semantic features of the generated images. In our approach we use a pre-trained model of StyleGAN3 that generates images of realistic human faces in relatively high resolution. We complement the generative model with a convolutional neural network classifier, namely ResNet34, trained to classify the generated images with binary facial features from the CelebA dataset. Our latent feature shifter is a neural network model with a task to shift the latent vectors of a generative model into a specified feature direction. We have trained latent feature shifter for multiple facial features, and outperformed our baseline method in the number of generated images with the desired feature. To train our latent feature shifter neural network, we have designed a dataset of pairs of latent vectors with and without a certain feature. Based on the evaluation, we conclude that our latent feature shifter approach was successful in the controlled generation of the StyleGAN3 generator.

arxiv情報

著者 Róbert Belanec,Peter Lacko,Kristína Malinovská
発行日 2023-11-15 10:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク