要約
人のイメージ生成は、興味をそそるが挑戦的な問題です。
ただし、制約された状況では、このタスクはさらに困難になります。
この作業では、グローバルなセマンティクスを維持しながら、既存のシーンにコンテキストに関連する個人の画像を生成および挿入するための新しいパイプラインを提案します。
より具体的には、挿入される人の場所、ポーズ、および規模が現場の既存の人と融合するように、人を挿入することを目指しています。
この方法では、シーケンシャルパイプラインで3つの個別のネットワークを使用しています。
最初は、現場に存在する既存の人間の骨格にwasserstein生成敵対的なネットワーク(WGAN)を条件付けることにより、新しい人の潜在的な位置と骨格構造を予測します。
次に、予測されたスケルトンは、浅い線形ネットワークを介して洗練され、生成された画像でより高い構造精度を実現します。
最後に、ターゲット画像は、ターゲットの特定の画像に条件付けられた別の生成ネットワークを使用して、洗練されたスケルトンから生成されます。
実験では、シーンの一般的なコンテキストを維持しながら、高解像度の写真リアリスティック生成結果を達成します。
結果について、複数の定性的および定量的ベンチマークで論文を締めくくります。
要約(オリジナル)
Person image generation is an intriguing yet challenging problem. However, this task becomes even more difficult under constrained situations. In this work, we propose a novel pipeline to generate and insert contextually relevant person images into an existing scene while preserving the global semantics. More specifically, we aim to insert a person such that the location, pose, and scale of the person being inserted blends in with the existing persons in the scene. Our method uses three individual networks in a sequential pipeline. At first, we predict the potential location and the skeletal structure of the new person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on the existing human skeletons present in the scene. Next, the predicted skeleton is refined through a shallow linear network to achieve higher structural accuracy in the generated image. Finally, the target image is generated from the refined skeleton using another generative network conditioned on a given image of the target person. In our experiments, we achieve high-resolution photo-realistic generation results while preserving the general context of the scene. We conclude our paper with multiple qualitative and quantitative benchmarks on the results.
arxiv情報
著者 | Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein |
発行日 | 2025-02-18 17:40:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google