要約
コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案します。
具体的には、合成されたインスタンスが複雑なシーンに溶け込むことができるように、個人の画像を生成しようとします。
私たちの方法では、生成された人の位置、スケール、および外観は、現場の既存の人に意味的に条件付けられています。
提案された手法は、3つの順次ステップに分割されます。
最初は、PIX2PIXHDモデルを使用して、新しい人の空間的位置、スケール、および潜在的なポーズを表す粗いセマンティックマスクを推測します。
次に、データ中心のアプローチを使用して、事前に計算されたファインセマンティックマスクのクラスターから最も近い表現を選択します。
最後に、マルチスケールの注意誘導アーキテクチャを採用して、模範的な画像から外観属性を転送します。
提案された戦略により、グローバルなコンテキストを変更せずに既存のシーンに溶け込むことができる、意味的に一貫した現実的な人を統合することができます。
関連する定性的および定量的評価で調査結果を締めくくります。
要約(オリジナル)
We propose a data-driven approach for context-aware person image generation. Specifically, we attempt to generate a person image such that the synthesized instance can blend into a complex scene. In our method, the position, scale, and appearance of the generated person are semantically conditioned on the existing persons in the scene. The proposed technique is divided into three sequential steps. At first, we employ a Pix2PixHD model to infer a coarse semantic mask that represents the new person’s spatial location, scale, and potential pose. Next, we use a data-centric approach to select the closest representation from a precomputed cluster of fine semantic masks. Finally, we adopt a multi-scale, attention-guided architecture to transfer the appearance attributes from an exemplar image. The proposed strategy enables us to synthesize semantically coherent realistic persons that can blend into an existing scene without altering the global context. We conclude our findings with relevant qualitative and quantitative evaluations.
arxiv情報
著者 | Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein |
発行日 | 2025-02-18 17:48:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google