要約
StyleGAN を使用した顔操作の最近の進歩は、印象的な結果をもたらしました。
ただし、StyleGAN は本質的に、事前トレーニング済みの固定画像解像度でトリミングされた位置合わせされた顔に制限されています。
この論文では、モデルパラメータを変更せずに、拡張畳み込みを使用してStyleGANの浅い層の受容野を再スケーリングすることにより、この制限に対するシンプルで効果的な解決策を提案します。
これにより、浅いレイヤーの固定サイズの小さなフィーチャを、可変解像度に対応できる大きなフィーチャに拡張できるため、位置合わせされていない面の特徴付けがより堅牢になります。
実際の顔の反転と操作を有効にするために、潜在的なスタイル コードに加えて、拡張 StyleGAN の第 1 層の機能を提供する対応するエンコーダーを導入します。
顔属性の編集、超解像度、スケッチ/マスクから顔への変換、顔のトゥーン化など、さまざまな顔操作タスクでさまざまな解像度の位置合わせされていない顔入力を使用して、この方法の有効性を検証します。
要約(オリジナル)
Recent advances in face manipulation using StyleGAN have produced impressive results. However, StyleGAN is inherently limited to cropped aligned faces at a fixed image resolution it is pre-trained on. In this paper, we propose a simple and effective solution to this limitation by using dilated convolutions to rescale the receptive fields of shallow layers in StyleGAN, without altering any model parameters. This allows fixed-size small features at shallow layers to be extended into larger ones that can accommodate variable resolutions, making them more robust in characterizing unaligned faces. To enable real face inversion and manipulation, we introduce a corresponding encoder that provides the first-layer feature of the extended StyleGAN in addition to the latent style code. We validate the effectiveness of our method using unaligned face inputs of various resolutions in a diverse set of face manipulation tasks, including facial attribute editing, super-resolution, sketch/mask-to-face translation, and face toonification.
arxiv情報
著者 | Shuai Yang,Liming Jiang,Ziwei Liu,Chen Change Loy |
発行日 | 2023-03-10 18:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google