MagiCapture: High-Resolution Multi-Concept Portrait Customization

要約

安定拡散を含む大規模なテキストから画像へのモデルは、忠実度の高いフォトリアリスティックなポートレート画像を生成できます。
これらのモデルのパーソナライズに特化した活発な研究領域があり、提供された参照画像のセットを使用して特定の主題やスタイルを合成することを目的としています。
ただし、これらのパーソナライゼーション方法から得られる妥当な結果にもかかわらず、多くの場合リアリズムに欠ける画像が生成される傾向があり、まだ商業的に実行可能なレベルには達していません。
これは特にポートレート画像の生成で顕著であり、人間の固有の偏見により、人間の顔の不自然なアーチファクトが容易に識別されます。
これに対処するために、被写体とスタイルの概念を統合し、わずか数個の被写体とスタイルの参照を使用して高解像度のポートレート画像を生成するパーソナライゼーション手法である MagiCapture を導入します。
たとえば、少数のランダムな自撮り写真を考慮すると、微調整されたモデルはパスポートやプロフィール写真などの特定のスタイルで高品質のポートレート画像を生成できます。
このタスクの主な課題は、構成されたコンセプトのグラウンド トゥルースが欠如していることで、最終出力の品質の低下とソース サブジェクトのアイデンティティの変化につながります。
これらの問題に対処するために、補助事前確率と組み合わせた新しいアテンション リフォーカシング損失を提案します。どちらも、この弱く教師のある学習設定内で堅牢な学習を促進します。
私たちのパイプラインには、非常に現実的な出力を確実に作成するための追加の後処理ステップも含まれています。
MagiCapture は、定量的評価と定性的評価の両方で他のベースラインを上回っており、人間以外の他のオブジェクトにも一般化できます。

要約(オリジナル)

Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.

arxiv情報

著者 Junha Hyung,Jaeyo Shin,Jaegul Choo
発行日 2023-09-13 11:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク