High-fidelity Person-centric Subject-to-Image Synthesis

要約

現在の被写体主導の画像生成方法は、人物中心の画像生成において大きな課題に直面しています。
その理由は、共通の事前トレーニング済み拡散を微調整することで意味論的なシーンと人物の生成を学習するためであり、これには相容れないトレーニングの不均衡が伴います。
正確に言うと、現実的な人物を生成するには、事前トレーニング済みモデルを十分に調整する必要があります。これにより、必然的にモデルが以前の豊富な意味論的シーンを忘れてしまい、シーン生成がトレーニング データに過剰に適合してしまいます。
さらに、十分な微調整を行ったとしても、シーンと人物生成の共同学習も品質の低下につながるため、これらの方法では依然として忠実度の高い人物を生成することはできません。
この論文では、上記のトレーニングの不均衡と品質の低下を排除するための効果的な協調生成パイプラインであるフェイスディフューザーを提案します。
具体的には、まず、シーンと人物の生成にそれぞれ特化した 2 つの事前トレーニング済み拡散モデル、つまりテキスト駆動拡散モデル (TDM) と主題拡張拡散モデル (SDM) を開発します。
サンプリング プロセスは、意味論的シーンの構築、主題とシーンの融合、および主題の強調という 3 つの連続した段階に分割されます。
最初と最後のステージはそれぞれ TDM と SDM によって実行されます。
主題とシーンの融合段階、つまり、斬新かつ非常に効果的なメカニズムである顕著性適応型ノイズ フュージョン (SNF) によって実現されるコラボレーションです。
具体的には、分類子を使用しないガイダンス応答と生成された画像の顕著性の間には強固な関連性が存在するという私たちの重要な観察に基づいています。
各タイム ステップで、SNF は各モデルの固有の強みを活用し、顕著性を認識した方法で両方のモデルからの予測ノイズの空間ブレンドを自動的に可能にします。
広範な実験により、フェイス ディフューザーの優れた有効性と堅牢性が確認されました。

要約(オリジナル)

Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser.

arxiv情報

著者 Yibin Wang,Weizhong Zhang,Jianwei Zheng,Cheng Jin
発行日 2024-03-15 12:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク