Synthesizing Environment-Specific People in Photographs

要約

我々は、入力写真に描かれたシーンに意味的に適切な服を着た人物のフォトリアリスティックな合成と修復を可能にする、コンテキスト認識型全身生成のための新しい方法である ESP を紹介します。
ESP は、シーンの写真から抽出されて生成プロセスに統合される 2D ポーズとコンテキスト キューに基づいて条件付けされ、衣類はヒューマン解析マスク (HPM) を使用して明示的にモデル化されます。
生成された HPM は、元の背景に変更が加えられないように、修復のための厳密なガイド マスクとして使用されます。
私たちのモデルは、さまざまな環境をカバーする人々の自然の写真セットを含むデータセットでトレーニングされています。
この方法は定量的および定性的に分析され、ESP がコンテキストに応じたフルボディ生成のタスクにおいて最先端技術よりも優れていることを示します。

要約(オリジナル)

We present ESP, a novel method for context-aware full-body generation, that enables photo-realistic synthesis and inpainting of people wearing clothing that is semantically appropriate for the scene depicted in an input photograph. ESP is conditioned on a 2D pose and contextual cues that are extracted from the photograph of the scene and integrated into the generation process, where the clothing is modeled explicitly with human parsing masks (HPM). Generated HPMs are used as tight guiding masks for inpainting, such that no changes are made to the original background. Our models are trained on a dataset containing a set of in-the-wild photographs of people covering a wide range of different environments. The method is analyzed quantitatively and qualitatively, and we show that ESP outperforms the state-of-the-art on the task of contextual full-body generation.

arxiv情報

著者 Mirela Ostrek,Carol O’Sullivan,Michael J. Black,Justus Thies
発行日 2024-09-26 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク