MagiCapture: High-Resolution Multi-Concept Portrait Customization

要約

安定拡散を含む大規模なテキスト画像変換モデルは、忠実度の高い写実的な人物画像を生成することができる。これらのモデルをパーソナライズすることに特化した活発な研究分野があり、提供された参照画像セットを使って特定の被写体やスタイルを合成することを目指している。しかし、これらのパーソナライゼーション手法から得られるもっともらしい結果にもかかわらず、それらはしばしばリアリズムに欠ける画像を生成する傾向があり、商業的に実行可能なレベルには至っていない。これは特に肖像画像生成において顕著であり、人間の顔における不自然なアーチファクトは、人間固有のバイアスのために容易に識別可能である。この問題に対処するために、我々はMagiCaptureを紹介する。MagiCaptureは、被写体とスタイルの概念を統合するパーソナライゼーション手法であり、わずか数個の被写体とスタイルの参照を使って高解像度のポートレート画像を生成する。例えば、一握りのランダムな自撮り写真があれば、我々の微調整されたモデルは、パスポートやプロフィール写真のような特定のスタイルで高品質のポートレート画像を生成することができる。このタスクの主な課題は、合成されたコンセプトのグランドトゥルースがないため、最終的なアウトプットの品質が低下し、ソース被写体のアイデンティティがずれてしまうことである。これらの問題に対処するため、我々は新しい注意リフォーカス損失と補助的な事前分布を提示する。また、我々のパイプラインは、非常に現実的な出力を作成するための追加的な後処理ステップを含む。MagiCaptureは、定量的・定性的評価の両方で他のベースラインを上回り、他の非ヒト物体にも一般化できる。

要約(オリジナル)

Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.

arxiv情報

著者 Junha Hyung,Jaeyo Shin,Jaegul Choo
発行日 2024-02-02 16:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク