Environment-Specific People

要約

特に生成画像合成と全身生成は大幅に進歩しているにもかかわらず、最先端の手法はコンテキストに依存していないか、テキスト プロンプトに過度に依存しているか、単調な背景を持つファッション画像などの厳選されたトレーニング データセットに束縛されています。

ここでの私たちの目標は、特定のシーンに意味的に適切な服装をした人々を生成することです。
この目的を達成するために、我々は、既存の「自然のままの」写真に人物を写実的に修復することを可能にする、コンテキストを認識した全身生成のための新しい方法である ESP を紹介します。
ESP は、環境写真から抽出され、生成プロセスに統合される 2D ポーズとコンテキスト キューに基づいて条件付けされます。
私たちのモデルは、さまざまな環境をカバーする人々の自然の写真セットを含むデータセットでトレーニングされています。
この方法は定量的および定性的に分析され、コンテキストに応じたフルボディ生成のタスクにおいて ESP が最先端技術よりも優れていることが示されました。

要約(オリジナル)

Despite significant progress in generative image synthesis and full-body generation in particular, state-of-the-art methods are either context-independent, overly reliant to text prompts, or bound to the curated training datasets, such as fashion images with monotonous backgrounds. Here, our goal is to generate people in clothing that is semantically appropriate for a given scene. To this end, we present ESP, a novel method for context-aware full-body generation, that enables photo-realistic inpainting of people into existing ‘in-the-wild’ photographs. ESP is conditioned on a 2D pose and contextual cues that are extracted from the environment photograph and integrated into the generation process. Our models are trained on a dataset containing a set of in-the-wild photographs of people covering a wide range of different environments. The method is analyzed quantitatively and qualitatively, and we show that ESP outperforms state-of-the-art on the task of contextual full-body generation.

arxiv情報

著者 Mirela Ostrek,Soubhik Sanyal,Carol O’Sullivan,Michael J. Black,Justus Thies
発行日 2023-12-22 10:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク