Visual Persona: Foundation Model for Full-Body Human Customization

要約

Text-to-Imageのフルボディの人間のカスタマイズの基礎モデルであるVisual Personaを紹介します。これは、単一の内部の人間の画像を考慮して、テキストの説明によって導かれた個々の多様な画像を生成します。
顔のアイデンティティの保存に焦点を当てた以前の方法とは異なり、私たちのアプローチは、身体の構造とシーンのバリエーションのテキストの説明に合わせて、詳細な全身の外観をキャプチャします。
このモデルのトレーニングには、一貫した全身アイデンティティを持つ個人あたりの複数の画像で構成される大規模なペアのヒトデータが必要であり、これを取得するのは難しいことで有名です。
これに対処するために、Vision-Languageモデルを活用するデータキュレーションパイプラインを提案して、全身の外観の一貫性を評価し、100Kユニークなアイデンティティにわたって580Kペアのヒト画像のデータセットである視覚的なペルソナ-500Kになります。
正確な外観転送のために、入力画像を明確なボディ領域に増強し、局所的な外観の特徴としてこれらの領域をエンコードし、カスタマイズされた画像を合成するための拡散モデルを条件付けるためにこれらの領域を独立して投影するために、これらの領域を個別の領域にエンコードするトランスフォーマーエンコーダデコーダーアーキテクチャを導入します。
視覚的なペルソナは、既存のアプローチを一貫して上回り、野生の入力から高品質でカスタマイズされた画像を生成します。
広範なアブレーション研究では、設計の選択肢が検証され、さまざまな下流タスクにわたる視覚的なペルソナの汎用性を実証します。

要約(オリジナル)

We introduce Visual Persona, a foundation model for text-to-image full-body human customization that, given a single in-the-wild human image, generates diverse images of the individual guided by text descriptions. Unlike prior methods that focus solely on preserving facial identity, our approach captures detailed full-body appearance, aligning with text descriptions for body structure and scene variations. Training this model requires large-scale paired human data, consisting of multiple images per individual with consistent full-body identities, which is notoriously difficult to obtain. To address this, we propose a data curation pipeline leveraging vision-language models to evaluate full-body appearance consistency, resulting in Visual Persona-500K, a dataset of 580k paired human images across 100k unique identities. For precise appearance transfer, we introduce a transformer encoder-decoder architecture adapted to a pre-trained text-to-image diffusion model, which augments the input image into distinct body regions, encodes these regions as local appearance features, and projects them into dense identity embeddings independently to condition the diffusion model for synthesizing customized images. Visual Persona consistently surpasses existing approaches, generating high-quality, customized images from in-the-wild inputs. Extensive ablation studies validate design choices, and we demonstrate the versatility of Visual Persona across various downstream tasks.

arxiv情報

著者 Jisu Nam,Soowon Son,Zhan Xu,Jing Shi,Difan Liu,Feng Liu,Aashish Misraa,Seungryong Kim,Yang Zhou
発行日 2025-03-19 16:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク