要約
人物画像生成は、興味深いが挑戦的な問題である。しかし、このタスクは制約のある状況下ではさらに困難となる。本研究では、グローバルなセマンティクスを保持しながら、文脈に応じた人物画像を生成し、既存のシーンに挿入するための新しいパイプラインを提案する。具体的には、挿入される人物の位置、ポーズ、スケールが、シーン内の既存の人物と調和するように、人物を挿入することを目的とする。本手法では、3つの個別ネットワークを逐次パイプラインで使用する。まず、Wasserstein Generative Adversarial Network (WGAN)をシーンに存在する人物の骨格に対して条件付けすることで、新しい人物の位置と骨格構造を予測する。次に、予測された骨格は、生成された画像においてより高い構造精度を達成するために、浅い線形ネットワークによって改良される。最後に、ターゲットとなる人物の画像を条件とした別の生成ネットワークを用いて、精緻化された骨格からターゲット画像を生成する。実験では、シーンの一般的な文脈を保持しながら、高解像度のフォトリアリスティックな生成結果を得ることができた。最後に、この結果に関する複数の定性的および定量的なベンチマークを示し、本論文の結論とする。
要約(オリジナル)
Person image generation is an intriguing yet challenging problem. However, this task becomes even more difficult under constrained situations. In this work, we propose a novel pipeline to generate and insert contextually relevant person images into an existing scene while preserving the global semantics. More specifically, we aim to insert a person such that the location, pose, and scale of the person being inserted blends in with the existing persons in the scene. Our method uses three individual networks in a sequential pipeline. At first, we predict the potential location and the skeletal structure of the new person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on the existing human skeletons present in the scene. Next, the predicted skeleton is refined through a shallow linear network to achieve higher structural accuracy in the generated image. Finally, the target image is generated from the refined skeleton using another generative network conditioned on a given image of the target person. In our experiments, we achieve high-resolution photo-realistic generation results while preserving the general context of the scene. We conclude our paper with multiple qualitative and quantitative benchmarks on the results.
arxiv情報
著者 | Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein |
発行日 | 2022-06-06 16:18:15+00:00 |
arxivサイト | arxiv_id(pdf) |