MagicFace: Training-free Universal-Style Human Image Customized Synthesis

要約

既存の人物画像のパーソナライズされた生成方法では、多くの場合、数枚の画像で微調整するか、大規模なデータセットで再トレーニングするなど、退屈なトレーニングが必要になります。
そのような場合、これらの方法は過剰適合する傾向があり、多様なスタイルの個人をパーソナライズするときに困難に遭遇します。
さらに、これらのトレーニングベースのアプローチは、複数の概念による人間のイメージのカスタマイズにも苦労します。
この目的を達成するために、我々は、トレーニング不要の方法であらゆるスタイルの人間に対して単一/複数コンセプトのカスタマイズを可能にする、ユニバーサルスタイルの人間画像パーソナライズ合成のための最初の方法であるMagicFaceを提案します。
MagicFace は、セマンティック シーンの構築とコンセプト機能の挿入という 2 つの連続した段階を含む、粗い生成パイプラインから細かい生成パイプラインを導入します。
これは、参照認識セルフアテンション (RSA) および領域グループ化ブレンド アテンション (RBA) メカニズムによって実現されます。
具体的には、最初の段階では、RSA は潜在イメージが参照概念からの特徴を同時にクエリできるようにし、粗粒度の全体的な意味理解を抽出して、初期の意味レイアウトの確立を容易にします。
第 2 段階では、注意ベースのセマンティック セグメンテーション手法を使用して、各ステップで潜像内のすべての概念の生成領域を特定します。
これに続いて、RBA は潜像のピクセルをセマンティック グループに分割し、各グループがその参照概念から詳細な特徴をクエリすることで、正確な属性の位置合わせと特徴の挿入が保証されます。
2 段階のプロセス全体を通じて、モデルが参照概念により重点を置くようにするために、重みマスク戦略が採用されます。
広範な実験により、人間中心の被写体と画像の合成とマルチコンセプトの人間画像のカスタマイズの両方における当社の優位性が実証されました。
私たちのアプローチはテクスチャ変換にも適用でき、その汎用性と適用性がさらに高まります。

要約(オリジナル)

Existing human image personalized generation methods often require tedious training: either fine-tuning with a few images or retraining on large-scale datasets. In such cases, these methods are prone to overfitting and encounter difficulties when personalizing individuals of diverse styles. Moreover, these training-based approaches also struggle with multi-concept human image customizing. To this end, we propose MagicFace, the first method for universal-style human image personalized synthesis that enables single/multi-concept customization for humans of any style in a training-free manner. MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic scene construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. Specifically, in the first stage, RSA enables the latent image to query features from reference concepts simultaneously, extracting the coarse-grained overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the generated regions of all concepts in the latent image at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from its reference concept, which ensures precise attribute alignment and feature injection. Throughout the two-stage process, a weight mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate our superiority in both human-centric subject-to-image synthesis and multi-concept human image customization. Our approach also can be applied to texture transformation, further enhancing its versatility and applicability.

arxiv情報

著者 Yibin Wang,Weizhong Zhang,Cheng Jin
発行日 2024-08-15 15:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク