要約
顔画像編集は、コンピュータビジョンや画像処理の分野で人気のある研究テーマである。この分野では近年大きな進展があったが、既存の解決策は、(i)低解像度画像に主に焦点を当てている、(ii)しばしば視覚的アーティファクトを伴う編集結果を生成する、(iii)望ましい顔のセマンティクスを生成しようとすると、細かい制御ができず複数の(もつれた)属性を一度に変更する、などであった。本論文では、局所的な属性編集に焦点を当てたMaskFaceGANと呼ばれる新しい属性編集アプローチによって、これらの問題を解決することを目的とする。提案手法は、事前に学習した(最先端の)Generative Adversarial Network(StyleGAN2)の潜在コードを、(i)関連する画像コンテンツの保存、(ii)目標とする顔属性の生成、(iii)局所画像領域の空間選択的処理を保証するいくつかの制約に関して、直接最適化する手順がベースになっている。この制約条件は、最適化処理に必要な参照情報を提供する(微分可能な)属性分類器と顔パーサーの助けを借りて強制される。MaskFaceGANは、CelebA-HQ、Helen、SiblingsDB-HQfデータセットに対する広範な実験と、文献にあるいくつかの最新技術、すなわちStarGAN、AttGAN、STGAN、2バージョンのInterFaceGANと比較して評価されている。その結果、提案手法は、高解像度(1024×1024)の顔画像において、これまでにない高画質で複数の局所的な顔属性に関する編集が可能であり、競合手法に比べて属性のもつれに関する問題がかなり少ないことが示されました。ソースコードは、https://github.com/MartinPernus/MaskFaceGAN から自由に入手可能です。
要約(オリジナル)
Face editing represents a popular research topic within the computer vision and image processing communities. While significant progress has been made recently in this area, existing solutions: (i) are still largely focused on low-resolution images, (ii) often generate editing results with visual artefacts, or (iii) lack fine-grained control and alter multiple (entangled) attributes at once, when trying to generate the desired facial semantics. In this paper, we aim to address these issues though a novel attribute editing approach called MaskFaceGAN that focuses on local attribute editing. The proposed approach is based on an optimization procedure that directly optimizes the latent code of a pre-trained (state-of-the-art) Generative Adversarial Network (i.e., StyleGAN2) with respect to several constraints that ensure: (i) preservation of relevant image content, (ii) generation of the targeted facial attributes, and (iii) spatially–selective treatment of local image areas. The constraints are enforced with the help of an (differentiable) attribute classifier and face parser that provide the necessary reference information for the optimization procedure. MaskFaceGAN is evaluated in extensive experiments on the CelebA-HQ, Helen and SiblingsDB-HQf datasets and in comparison with several state-of-the-art techniques from the literature, i.e., StarGAN, AttGAN, STGAN, and two versions of InterFaceGAN. Our experimental results show that the proposed approach is able to edit face images with respect to several local facial attributes with unprecedented image quality and at high-resolutions (1024×1024), while exhibiting considerably less problems with attribute entanglement than competing solutions. The source code is made freely available from: https://github.com/MartinPernus/MaskFaceGAN.
arxiv情報
著者 | Martin Pernuš,Vitomir Štruc,Simon Dobrišek |
発行日 | 2023-02-06 16:34:27+00:00 |
arxivサイト | arxiv_id(pdf) |