TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer

要約

ポーズガイド付きの個人画像合成(PGPI)は、指定されたターゲットポーズ(スケルトンなど)を採用しながら、ソース画像から被験者のアイデンティティを維持する画像を生成します。
拡散ベースのPGPISメソッドは、ポーズ変換中に顔の特徴を効果的に保存しますが、拡散プロセス全体でソース画像から衣服の詳細を正確に維持するのに苦労することがよくあります。
この制限は、ソースとターゲットのポーズに大きな違いがある場合に特に問題があり、著作権保護に衣服スタイルの保存が重要であるファッション業界のPGPISアプリケーションに大きな影響を与えます。
私たちの分析は、この制限が主に条件付き拡散モデルの注意モジュールが衣服のパターンを適切にキャプチャして保存できないことに起因することを明らかにしています。
この制限に対処するために、私たちは、高品質の結果を生み出しながら、顔と衣服の両方の外観を効果的に保存する新しいアプローチである、人間を採取する誘導注意拡散を提案します。
3つの重要なコンポーネントで構成される人間の並列認識シャムネットワークを提案します。デュアル同一のアンット(拡散除去用のTargetNetと、ソース画像埋め込み抽出のためのSourcenet)、ヒト採取誘導融合注意(HPFA)、およびクリップ
ガイド付き注意アラインメント(CAA)。
HPFAおよびCAAモジュールは、顔と衣服のパターンを適応的かつ効果的にターゲット画像生成に埋め込むことができます。
ショップ中の衣服検索ベンチマークと最新の野生の人間の編集データセットの両方での広範な実験は、ソース画像に顔と衣服の両方の外観を維持するための13のベースラインアプローチを超える方法の大きな利点を示しています。

要約(オリジナル)

Pose-Guided Person Image Synthesis (PGPIS) generates images that maintain a subject’s identity from a source image while adopting a specified target pose (e.g., skeleton). While diffusion-based PGPIS methods effectively preserve facial features during pose transformation, they often struggle to accurately maintain clothing details from the source image throughout the diffusion process. This limitation becomes particularly problematic when there is a substantial difference between the source and target poses, significantly impacting PGPIS applications in the fashion industry where clothing style preservation is crucial for copyright protection. Our analysis reveals that this limitation primarily stems from the conditional diffusion model’s attention modules failing to adequately capture and preserve clothing patterns. To address this limitation, we propose human-parsing-guided attention diffusion, a novel approach that effectively preserves both facial and clothing appearance while generating high-quality results. We propose a human-parsing-aware Siamese network that consists of three key components: dual identical UNets (TargetNet for diffusion denoising and SourceNet for source image embedding extraction), a human-parsing-guided fusion attention (HPFA), and a CLIP-guided attention alignment (CAA). The HPFA and CAA modules can embed the face and clothes patterns into the target image generation adaptively and effectively. Extensive experiments on both the in-shop clothes retrieval benchmark and the latest in-the-wild human editing dataset demonstrate our method’s significant advantages over 13 baseline approaches for preserving both facial and clothes appearance in the source image.

arxiv情報

著者 Zhihong Xu,Dongxia Wang,Peng Du,Yang Cao,Qing Guo
発行日 2025-02-05 18:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク