要約
深層学習の最近の進歩により、データのペアなしで 2 つの視覚領域間の対応関係を学習する教師なし画像間変換モデルが数多く成功しています。
ただし、さまざまなドメイン間で堅牢なマッピングを構築することは、依然として大きな課題であり、特に視覚的な差異が激しい場合にはなおさらです。
本稿では、既存の変換モデルの品質、適用性、制御性を向上させる、新しい多用途フレームワークである生成事前誘導型教師なし画像間変換 (GP-UNIT) を紹介します。
GP-UNIT の重要なアイデアは、事前にトレーニングされたクラス条件付き GAN から事前生成を抽出して大まかなレベルのクロスドメイン対応を構築し、敵対的変換の前に学習した事前生成を適用して詳細レベルの対応を発掘することです。
学習されたマルチレベルのコンテンツ対応により、GP-UNIT は、近いドメインと遠いドメインの両方の間で有効な翻訳を実行できます。
近いドメインの場合、GP-UNIT をパラメータに基づいて条件付けして、翻訳中のコンテンツの対応の強度を決定できるため、ユーザーはコンテンツとスタイルの一貫性の間でバランスをとることができます。
遠く離れたドメインの場合、GP-UNIT が外観だけから学習するのが難しい正確な意味上の対応関係を発見できるように、半教師あり学習が検討されます。
私たちは、広範な実験を通じて、さまざまなドメイン間の堅牢かつ高品質で多様な翻訳において、最先端の翻訳モデルに対する GP-UNIT の優位性を検証します。
要約(オリジナル)
Recent advances in deep learning have witnessed many successful unsupervised image-to-image translation models that learn correspondences between two visual domains without paired data. However, it is still a great challenge to build robust mappings between various domains especially for those with drastic visual discrepancies. In this paper, we introduce a novel versatile framework, Generative Prior-guided UNsupervised Image-to-image Translation (GP-UNIT), that improves the quality, applicability and controllability of the existing translation models. The key idea of GP-UNIT is to distill the generative prior from pre-trained class-conditional GANs to build coarse-level cross-domain correspondences, and to apply the learned prior to adversarial translations to excavate fine-level correspondences. With the learned multi-level content correspondences, GP-UNIT is able to perform valid translations between both close domains and distant domains. For close domains, GP-UNIT can be conditioned on a parameter to determine the intensity of the content correspondences during translation, allowing users to balance between content and style consistency. For distant domains, semi-supervised learning is explored to guide GP-UNIT to discover accurate semantic correspondences that are hard to learn solely from the appearance. We validate the superiority of GP-UNIT over state-of-the-art translation models in robust, high-quality and diversified translations between various domains through extensive experiments.
arxiv情報
著者 | Shuai Yang,Liming Jiang,Ziwei Liu,Chen Change Loy |
発行日 | 2023-06-07 17:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google