要約
ここ数年、敵対的生成ネットワーク (GAN) を使用してリアルな画像を作成することに関して多くの進歩が見られました。
ただし、実際のデータを入力として使用して画像を再構成したり画像を生成したりするには、GAN の潜在空間から画像空間へのマッピングを逆にするエンコーダーが必要です。
これは、Encoder、Decoder (通常の GAN では Generator と呼ばれる)、Discriminator の 3 つのネットワークが必要であることを意味します。
これら 3 つのネットワークは同時に最初からトレーニングすることもできます (敵対的に学習した推論)。あるいは、\textit{pretrained} GAN モデルの潜在空間に画像をマッピングするエンコーダー ネットワークをトレーニングすることもできます (逆 GAN)。
後者の場合、ネットワークは連続的にトレーニングされるため、エンコーダーは、デコーダーが GAN トレーニング中に学習したどのようなモデルでも対応する必要があります。
3 つのネットワークを同時にトレーニングすることは不安定であり、より困難ですが、エンコーダーとデコーダーがトレーニング中に相互作用することで恩恵を受ける可能性があります。
2 つの異なるアプローチを比較し、3 つのネットワークすべてを同時にトレーニングするために特別な努力をする価値があるかどうかについて議論します。
要約(オリジナル)
A lot of progress has been made in the last years on using Generative Adversarial Networks (GAN) to create realistic images. However, to be able reconstruct images or to generate images using real data as input, an Encoder is needed that reverses the mapping from the GAN’s latent space to image space. This means that three networks are needed: an Encoder, a Decoder (called Generator in a normal GAN) and a Discriminator. These three networks can be trained from scratch simultaneously (Adversarially Learned Inference), or alternatively an Encoder network can be trained that maps images into the latent space of a \textit{pretrained} GAN model (Inverse GAN). In the latter case, the networks are trained consecutively, so the Encoder has to make do with whatever model the Decoder learned during GAN training. Training three networks simultaneously is more unstable and therefore more challenging, but it is possible that the Encoder and Decoder benefit from interacting with each other during training. We compare the two different approaches and discuss whether it is worth the extra effort to train all three networks simultaneously.
arxiv情報
著者 | Una M. Kelly,Meike Nauta,Lu Liu,Luuk J. Spreeuwers,Raymond N. J. Veldhuis |
発行日 | 2023-10-12 14:40:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google