Global Context-Aware Person Image Generation

要約

コンテキストを意識した人物画像生成のためのデータ駆動型アプローチを提案します。
具体的には、合成されたインスタンスが複雑なシーンに溶け込むことができるような人物画像の生成を試みます。
この方法では、生成された人物の位置、スケール、および外観は、シーン内の既存の人物に基づいて意味的に条件付けられます。
提案された手法は、3 つの連続したステップに分割されます。
最初に、Pix2PixHD モデルを使用して、新しい人物の空間位置、スケール、潜在的なポーズを表す粗いセマンティック マスクを推測します。
次に、データ中心のアプローチを使用して、事前に計算された細かいセマンティック マスクのクラスターから最も近い表現を選択します。
最後に、模範的な画像から外観属性を転送するために、マルチスケールの注意誘導型アーキテクチャを採用します。
提案された戦略により、グローバルなコンテキストを変更せずに既存のシーンに溶け込むことができる、意味的に一貫した現実的な人物を合成することができます。
関連する質的および量的評価で調査結果を締めくくります。

要約(オリジナル)

We propose a data-driven approach for context-aware person image generation. Specifically, we attempt to generate a person image such that the synthesized instance can blend into a complex scene. In our method, the position, scale, and appearance of the generated person are semantically conditioned on the existing persons in the scene. The proposed technique is divided into three sequential steps. At first, we employ a Pix2PixHD model to infer a coarse semantic mask that represents the new person’s spatial location, scale, and potential pose. Next, we use a data-centric approach to select the closest representation from a precomputed cluster of fine semantic masks. Finally, we adopt a multi-scale, attention-guided architecture to transfer the appearance attributes from an exemplar image. The proposed strategy enables us to synthesize semantically coherent realistic persons that can blend into an existing scene without altering the global context. We conclude our findings with relevant qualitative and quantitative evaluations.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein
発行日 2023-02-28 16:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク