要約
テキストから画像への拡散モデルは、いくつかの参照画像に基づいてパーソナライズされた主題を生成することに顕著な成功を収めています。
ただし、現在の方法では、複数のサブジェクトを同時に生成すると失敗することが多く、その結果、異なるサブジェクトの属性を組み合わせた混合 ID が生成されます。
この研究では、複数の被験者からアイデンティティを効果的に分離することで、複数の被験者のパーソナライゼーションを可能にする新しいフレームワークである MuDI を紹介します。
私たちの主なアイデアは、トレーニングと生成プロセスの初期化のためのデータ拡張の形式として、トレーニングと推論の両方にセグメンテーション用の基礎モデル (Segment Anything) によって生成されたセグメント化されたサブジェクトを利用することです。
さらに、複数の被験者のパーソナライゼーションにおける私たちの方法のパフォーマンスをより適切に評価するための新しい指標をさらに導入します。
実験結果は、図 1 に示すように、当社の MuDI は、類似性の高い被験者であっても、アイデンティティを混合することなく高品質のパーソナライズされた画像を生成できることを示しています。特に人間による評価では、MuDI は既存のベースラインと比較して、アイデンティティを混合することなく複数の被験者をパーソナライズする成功率が 2 倍得られます。
最も強いベースラインに対して 70% 以上優先されます。
要約(オリジナル)
Text-to-image diffusion models have shown remarkable success in generating personalized subjects based on a few reference images. However, current methods often fail when generating multiple subjects simultaneously, resulting in mixed identities with combined attributes from different subjects. In this work, we present MuDI, a novel framework that enables multi-subject personalization by effectively decoupling identities from multiple subjects. Our main idea is to utilize segmented subjects generated by a foundation model for segmentation (Segment Anything) for both training and inference, as a form of data augmentation for training and initialization for the generation process. Moreover, we further introduce a new metric to better evaluate the performance of our method on multi-subject personalization. Experimental results show that our MuDI can produce high-quality personalized images without identity mixing, even for highly similar subjects as shown in Figure 1. Specifically, in human evaluation, MuDI obtains twice the success rate for personalizing multiple subjects without identity mixing over existing baselines and is preferred over 70% against the strongest baseline.
arxiv情報
著者 | Sangwon Jang,Jaehyeong Jo,Kimin Lee,Sung Ju Hwang |
発行日 | 2024-05-28 15:09:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google