Semantic Latent Decomposition with Normalizing Flows for Face Editing

要約

StyleGAN の潜在空間内を移動すると、顔の編集に有効であることがわかりました。
ただし、結果として得られるメソッドは通常、潜在空間内のさまざまな属性間の絡み合いにより、複雑なナビゲーションで課題に直面します。
この問題に対処するために、この論文では、連続条件付き正規化フローを使用して元の潜在空間での意味分解を行う、SDFlow と呼ばれる新しいフレームワークを提案します。
具体的には、SDFlow は、2 つのコンポーネントを共同最適化することにより、元の潜在コードを別の無関係な変数に分解します。(i) 入力面から意味変数を推定するセマンティック エンコーダーと、(ii) 潜在コードを意味論的なコードにマッピングするフローベースの変換モジュール。
ガウス分布における無関係な変数。学習された意味変数に条件付けされます。
変数間のもつれを排除するために、相互情報フレームワークの下でもつれのない学習戦略を採用し、それによって正確な操作制御を提供します。
実験結果は、SDFlow が既存の最先端の顔編集方法を質的にも量的にも優れていることを示しています。
ソース コードは https://github.com/phil329/SDFlow で入手できます。

要約(オリジナル)

Navigating in the latent space of StyleGAN has shown effectiveness for face editing. However, the resulting methods usually encounter challenges in complicated navigation due to the entanglement among different attributes in the latent space. To address this issue, this paper proposes a novel framework, termed SDFlow, with a semantic decomposition in original latent space using continuous conditional normalizing flows. Specifically, SDFlow decomposes the original latent code into different irrelevant variables by jointly optimizing two components: (i) a semantic encoder to estimate semantic variables from input faces and (ii) a flow-based transformation module to map the latent code into a semantic-irrelevant variable in Gaussian distribution, conditioned on the learned semantic variables. To eliminate the entanglement between variables, we employ a disentangled learning strategy under a mutual information framework, thereby providing precise manipulation controls. Experimental results demonstrate that SDFlow outperforms existing state-of-the-art face editing methods both qualitatively and quantitatively. The source code is made available at https://github.com/phil329/SDFlow.

arxiv情報

著者 Binglei Li,Zhizhong Huang,Hongming Shan,Junping Zhang
発行日 2023-09-11 08:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク