要約
少数ショット画像生成は、少数のトレーニング画像を使用して生成モデルをトレーニングすることを目的としています。
トレーニングに使用できる画像が少ない場合 (例: 10 画像)、Learning From Scratch (LFS) メソッドはトレーニング データによく似た画像を生成することがよくありますが、Transfer Learning (TL) メソッドは事前トレーニングされた GAN からの事前知識を活用してパフォーマンスの向上を試みます。
大規模なデータセットについて。
ただし、現在の TL 手法では、ソース モデルからの知識の保存の程度を十分に制御できない可能性があるため、ソース ドメインとターゲット ドメインが密接に関連していないセットアップには適していません。
これに対処するために、Peer is your Pillar (PIP) と呼ばれる新しいパイプラインを提案します。これは、ターゲットの少数ショット データセットとピア データセットを組み合わせて、データの不均衡な条件付き生成を作成します。
私たちのアプローチには、クラス空間を潜在空間から分離するクラス埋め込み手法が含まれており、事前トレーニングされた CLIP に基づく方向損失を使用して画像の多様性を向上させます。
さまざまな少数ショット データセットの実験により、提案された PIP の進歩が実証され、特に少数ショット画像生成のトレーニング要件が軽減されます。
要約(オリジナル)
Few-shot image generation aims to train generative models using a small number of training images. When there are few images available for training (e.g. 10 images), Learning From Scratch (LFS) methods often generate images that closely resemble the training data while Transfer Learning (TL) methods try to improve performance by leveraging prior knowledge from GANs pre-trained on large-scale datasets. However, current TL methods may not allow for sufficient control over the degree of knowledge preservation from the source model, making them unsuitable for setups where the source and target domains are not closely related. To address this, we propose a novel pipeline called Peer is your Pillar (PIP), which combines a target few-shot dataset with a peer dataset to create a data-unbalanced conditional generation. Our approach includes a class embedding method that separates the class space from the latent space, and we use a direction loss based on pre-trained CLIP to improve image diversity. Experiments on various few-shot datasets demonstrate the advancement of the proposed PIP, especially reduces the training requirements of few-shot image generation.
arxiv情報
著者 | Ziqiang Li,Chaoyue Wang,Xue Rui,Chao Xue,Jiaxu Leng,Bin Li |
発行日 | 2023-11-14 14:55:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google