要約
テキストから画像への拡散モデルは、いくつかの参照画像に基づいてパーソナライズされた主題を生成することに顕著な成功を収めています。
しかし、現在の方法では複数の主題を同時に処理することが困難であり、多くの場合、異なる主題の属性が組み合わされた混合アイデンティティが生じます。
この研究では、複数の被験者からアイデンティティを効果的に分離することで、複数の被験者のパーソナライゼーションを可能にする新しいフレームワークである MuDI を紹介します。
私たちの主なアイデアは、Segment Anything Model によって生成されたセグメント化されたサブジェクトを、トレーニングと生成プロセスの初期化のためのデータ拡張の形式として、トレーニングと推論の両方に利用することです。
私たちの実験は、図 1 に示すように、非常に類似した被験者であっても、MuDI がアイデンティティの混合なしで高品質のパーソナライズされた画像を生成できることを示しています。人間による評価では、MuDI はアイデンティティの混合なしで複数の被験者をパーソナライズすることに既存のベースラインよりも 2 倍の成功を示しており、推奨されています。
最も強力なベースラインと比較して 70% 以上。
詳しい結果は https://mudi-t2i.github.io/ でご覧いただけます。
要約(オリジナル)
Text-to-image diffusion models have shown remarkable success in generating a personalized subject based on a few reference images. However, current methods struggle with handling multiple subjects simultaneously, often resulting in mixed identities with combined attributes from different subjects. In this work, we present MuDI, a novel framework that enables multi-subject personalization by effectively decoupling identities from multiple subjects. Our main idea is to utilize segmented subjects generated by the Segment Anything Model for both training and inference, as a form of data augmentation for training and initialization for the generation process. Our experiments demonstrate that MuDI can produce high-quality personalized images without identity mixing, even for highly similar subjects as shown in Figure 1. In human evaluation, MuDI shows twice as many successes for personalizing multiple subjects without identity mixing over existing baselines and is preferred over 70% compared to the strongest baseline. More results are available at https://mudi-t2i.github.io/.
arxiv情報
著者 | Sangwon Jang,Jaehyeong Jo,Kimin Lee,Sung Ju Hwang |
発行日 | 2024-04-05 17:45:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google