LSAP: Rethinking Inversion Fidelity, Perception and Editability in GAN Latent Space

要約

メソッドが進化するにつれて、反転は主に 2 つのステップに分けられます。
最初のステップは画像の埋め込みで、エンコーダーまたは最適化プロセスが画像を埋め込み、対応する潜在コードを取得します。
その後、2 番目のステップは、結果の絞り込みと名付けた反転と編集結果を絞り込むことを目的としています。
2 番目のステップで忠実度が大幅に向上しますが、認識と編集可能性はほとんど変化せず、最初のステップで得られた逆潜在コードに大きく依存します。
したがって、重要な問題は、再構成の忠実度を維持しながら、より優れた認識と編集可能性を備えた潜在コードを取得することです。
この作業では、まず、これらの 2 つの特性が合成分布との逆コードの整列 (または非整列) の程度に関連していることを指摘します。
次に、この問題の評価指標と解決策からなる潜在空間アライメント反転パラダイム (LSAP) を提案します。
具体的には、正規化されたスタイル スペース ($\mathcal{S^N}$ スペース) と $\mathcal{S^N}$ コサイン距離 (SNCD) を導入して、反転メソッドのずれを測定します。
提案されたSNCDは微分可能であるため、エンコーダベースと最適化ベースの両方の埋め込み方法で最適化して、均一なソリューションを実行できます。
さまざまなドメインでの広範な実験により、SNCD が知覚と編集可能性を効果的に反映していることが実証されており、私たちのアライメント パラダイムは 2 つのステップの両方で最先端をアーカイブしています。
コードは https://github.com/caopulan/GANInverter/tree/main/configs/lsap で入手できます。

要約(オリジナル)

As the methods evolve, inversion is mainly divided into two steps. The first step is Image Embedding, in which an encoder or optimization process embeds images to get the corresponding latent codes. Afterward, the second step aims to refine the inversion and editing results, which we named Result Refinement. Although the second step significantly improves fidelity, perception and editability are almost unchanged, deeply dependent on inverse latent codes attained in the first step. Therefore, a crucial problem is gaining the latent codes with better perception and editability while retaining the reconstruction fidelity. In this work, we first point out that these two characteristics are related to the degree of alignment (or disalignment) of the inverse codes with the synthetic distribution. Then, we propose Latent Space Alignment Inversion Paradigm (LSAP), which consists of evaluation metric and solution for this problem. Specifically, we introduce Normalized Style Space ($\mathcal{S^N}$ space) and $\mathcal{S^N}$ Cosine Distance (SNCD) to measure disalignment of inversion methods. Since our proposed SNCD is differentiable, it can be optimized in both encoder-based and optimization-based embedding methods to conduct a uniform solution. Extensive experiments in various domains demonstrate that SNCD effectively reflects perception and editability, and our alignment paradigm archives the state-of-the-art in both two steps. Code is available on https://github.com/caopulan/GANInverter/tree/main/configs/lsap.

arxiv情報

著者 Pu Cao,Lu Yang,Dongxu Liu,Zhiwei Liu,Shan Li,Qing Song
発行日 2023-03-16 11:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク