要約
Unpaired image-to-image translation (UNIT) は、ペアのトレーニング データを使用せずに 2 つの視覚領域間で画像をマッピングすることを目的としています。
ただし、特定のドメインでトレーニングされた UNIT モデルを考えると、既存のドメインと新しいドメインの両方で完全なモデルをトレーニングする必要があることが多いため、現在の方法では新しいドメインを組み込むことは困難です。
この問題に対処するために、潜在空間アンカリングと呼ばれる新しいドメイン スケーラブルな UNIT 手法を提案します。この手法は、新しい視覚ドメインに効率的に拡張でき、既存のドメインのエンコーダとデコーダを微調整する必要がありません。
私たちの方法は、軽量のエンコーダーとリグレッサーモデルを学習して単一ドメイン画像を再構成することにより、異なるドメインの画像を凍結した GAN の同じ潜在空間に固定します。
推論フェーズでは、学習された異なるドメインのエンコーダーとデコーダーを任意に組み合わせて、微調整することなく任意の 2 つのドメイン間で画像を変換できます。
さまざまなデータセットでの実験では、提案された方法が、最先端の方法と比較して、標準タスクとドメイン スケーラブルな UNIT タスクの両方で優れたパフォーマンスを達成することが示されています。
要約(オリジナル)
Unpaired image-to-image translation (UNIT) aims to map images between two visual domains without paired training data. However, given a UNIT model trained on certain domains, it is difficult for current methods to incorporate new domains because they often need to train the full model on both existing and new domains. To address this problem, we propose a new domain-scalable UNIT method, termed as latent space anchoring, which can be efficiently extended to new visual domains and does not need to fine-tune encoders and decoders of existing domains. Our method anchors images of different domains to the same latent space of frozen GANs by learning lightweight encoder and regressor models to reconstruct single-domain images. In the inference phase, the learned encoders and decoders of different domains can be arbitrarily combined to translate images between any two domains without fine-tuning. Experiments on various datasets show that the proposed method achieves superior performance on both standard and domain-scalable UNIT tasks in comparison with the state-of-the-art methods.
arxiv情報
著者 | Siyu Huang,Jie An,Donglai Wei,Zudi Lin,Jiebo Luo,Hanspeter Pfister |
発行日 | 2023-06-26 17:50:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google