Environment-Specific People


特に生成画像合成と全身生成は大幅に進歩しているにもかかわらず、最先端の手法はコンテキストに依存していないか、テキスト プロンプトに過度に依存しているか、単調な背景を持つファッション画像などの厳選されたトレーニング データセットに束縛されています。

この目的を達成するために、我々は、既存の「自然のままの」写真に人物を写実的に修復することを可能にする、コンテキストを認識した全身生成のための新しい方法である ESP を紹介します。
ESP は、環境写真から抽出され、生成プロセスに統合される 2D ポーズとコンテキスト キューに基づいて条件付けされます。
この方法は定量的および定性的に分析され、コンテキストに応じたフルボディ生成のタスクにおいて ESP が最先端技術よりも優れていることが示されました。


Despite significant progress in generative image synthesis and full-body generation in particular, state-of-the-art methods are either context-independent, overly reliant to text prompts, or bound to the curated training datasets, such as fashion images with monotonous backgrounds. Here, our goal is to generate people in clothing that is semantically appropriate for a given scene. To this end, we present ESP, a novel method for context-aware full-body generation, that enables photo-realistic inpainting of people into existing ‘in-the-wild’ photographs. ESP is conditioned on a 2D pose and contextual cues that are extracted from the environment photograph and integrated into the generation process. Our models are trained on a dataset containing a set of in-the-wild photographs of people covering a wide range of different environments. The method is analyzed quantitatively and qualitatively, and we show that ESP outperforms state-of-the-art on the task of contextual full-body generation.


著者 Mirela Ostrek,Soubhik Sanyal,Carol O’Sullivan,Michael J. Black,Justus Thies
発行日 2023-12-22 10:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク