要約
人間の画像をカスタマイズして合成するための現在の最先端の方法では、通常、大規模なデータセットでの退屈なトレーニングが必要です。
このような場合、過剰適合する傾向があり、目に見えないスタイルの個人をカスタマイズするのに苦労します。
さらに、これらの方法は単一概念の人物画像合成に重点を置いており、複数の与えられた概念で個人をカスタマイズするために必要な柔軟性に欠けており、そのため広範な実用化が妨げられています。
この目的を達成するために、我々は、ユニバーサルスタイルの人物画像のパーソナライズされた合成のためのトレーニング不要の新しい方法であるMagicFaceを提案します。これは、参照コンセプトの特徴をピクセルレベルで潜在的に生成された領域に正確に統合することにより、マルチコンセプトのカスタマイズを可能にします。
具体的には、MagicFace は、セマンティック レイアウトの構築とコンセプト機能の挿入という 2 つの連続したステージを含む、粗いから細かいへの生成パイプラインを導入します。
これは、参照認識セルフアテンション (RSA) および領域グループ化ブレンド アテンション (RBA) メカニズムによって実現されます。
第 1 段階では、RSA により、潜在イメージがすべての参照概念から同時に特徴をクエリできるようになり、全体的な意味理解を抽出して、初期の意味論的レイアウトの確立を容易にします。
第 2 段階では、注意ベースのセマンティック セグメンテーション手法を使用して、各ステップですべての概念の潜在的に生成された領域を特定します。
これに続いて、RBA は潜像のピクセルをセマンティック グループに分割し、各グループが対応する参照概念からの詳細な特徴をクエリすることで、正確な属性の位置合わせと特徴の挿入が保証されます。
生成プロセス全体を通じて、モデルが参照コンセプトにより重点を置くように、重み付けマスク戦略が採用されます。
広範な実験により、人間中心の被写体と画像の合成と、マルチコンセプトの人間画像のカスタマイズの両方において MagicFace の優位性が実証されました。
要約(オリジナル)
Current state-of-the-art methods for human image customized synthesis typically require tedious training on large-scale datasets. In such cases, they are prone to overfitting and struggle to personalize individuals of unseen styles. Moreover, these methods extensively focus on single-concept human image synthesis and lack the flexibility needed for customizing individuals with multiple given concepts, thereby impeding their broader practical application. To this end, we propose MagicFace, a novel training-free method for universal-style human image personalized synthesis, enabling multi-concept customization by accurately integrating reference concept features into their latent generated region at the pixel level. Specifically, MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic layout construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. In the first stage, RSA enables the latent image to query features from all reference concepts simultaneously, extracting the overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the latent generated regions of all concepts at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from the corresponding reference concept, which ensures precise attribute alignment and feature injection. Throughout the generation process, a weighted mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate the superiority of MagicFace in both human-centric subject-to-image synthesis and multi-concept human image customization.
arxiv情報
著者 | Yibin Wang,Weizhong Zhang,Cheng Jin |
発行日 | 2024-08-19 14:43:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google