要約
現実世界の画像操作は、近年目覚ましい進歩を遂げています。
実画像を潜在コードに忠実にマッピングすることを目的とした GAN 逆変換は、このパイプラインの最初のステップです。
ただし、既存の GAN 逆変換手法では、高い再構成品質と高速推論を同時に実現できません。
さらに、既存の手法は 2D GAN に基づいて構築されており、マルチビューの一貫性を強制するための明示的なメカニズムが不足しています。この研究では、新しく開発された 3D GAN をジェネレーターとして活用しながら、新しいメタ補助フレームワークを提示します。
提案手法は 2 段階の戦略を採用している。
最初の段階では、既製の反転技術を使用して、入力画像を編集可能な潜在コードに反転します。
補助ネットワークは、与えられた画像を入力として使用してジェネレーター パラメーターを改良するために提案されており、畳み込み層の重みのオフセットとボリューム レンダリングのサンプリング位置の両方を予測します。
第 2 段階では、補助ネットワークを入力画像に迅速に適応させるメタ学習を実行し、メタ学習された補助ネットワークを介して最終的な再構成画像が合成されます。
広範な実験により、私たちの方法が反転タスクと編集タスクの両方でより良いパフォーマンスを達成することが示されました。
要約(オリジナル)
Real-world image manipulation has achieved fantastic progress in recent years. GAN inversion, which aims to map the real image to the latent code faithfully, is the first step in this pipeline. However, existing GAN inversion methods fail to achieve high reconstruction quality and fast inference at the same time. In addition, existing methods are built on 2D GANs and lack explicitly mechanisms to enforce multi-view consistency.In this work, we present a novel meta-auxiliary framework, while leveraging the newly developed 3D GANs as generator. The proposed method adopts a two-stage strategy. In the first stage, we invert the input image to an editable latent code using off-the-shelf inversion techniques. The auxiliary network is proposed to refine the generator parameters with the given image as input, which both predicts offsets for weights of convolutional layers and sampling positions of volume rendering. In the second stage, we perform meta-learning to fast adapt the auxiliary network to the input image, then the final reconstructed image is synthesized via the meta-learned auxiliary network. Extensive experiments show that our method achieves better performances on both inversion and editing tasks.
arxiv情報
著者 | Bangrui Jiang,Zhenhua Guo,Yujiu Yang |
発行日 | 2023-05-18 11:26:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google