Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation

要約

パーソナライズされたテキストから画像への生成方法は、参照画像に基づいてカスタマイズされた画像を生成でき、幅広い研究の関心を集めています。
最近の方法では、テスト時の微調整を必要とせずにパーソナライズされた画像を生成する、分離されたクロスアテンション メカニズムを備えた微調整不要のアプローチが提案されています。
しかし、複数の参照画像が提供されると、現在の分離されたクロスアテンション メカニズムはオブジェクトの混乱の問題に遭遇し、各参照画像を対応するオブジェクトにマッピングできないため、その適用範囲が大幅に制限されます。
オブジェクトの混乱の問題に対処するために、この研究では、拡散モデルにおけるターゲットオブジェクトに対する潜像特徴のさまざまな位置の関連性を調査し、それに応じて複数の参照画像特徴を対応するオブジェクトにマージする加重マージ方法を提案します。
次に、この加重マージ手法を既存の事前トレーニング済みモデルに統合し、オープンソースの SA-1B データセットから構築されたマルチオブジェクト データセットでモデルのトレーニングを続けます。
オブジェクトの混乱を軽減し、トレーニング コストを削減するために、高品質のトレーニング サンプルを選択する際の画質を推定するオブジェクト品質スコアを提案します。
さらに、単一のオブジェクトに複数の参照画像がある場合、重み付けマージ トレーニング フレームワークを単一オブジェクトの生成に使用できます。
実験では、私たちの方法が、複数オブジェクトのパーソナライズされた画像生成の Concept101 データセットと DreamBooth データセットで最先端のパフォーマンスを達成し、単一オブジェクトのパーソナライズされた画像生成のパフォーマンスが著しく向上することを確認しました。
私たちのコードは https://github.com/hqhQAQ/MIP-Adapter で入手できます。

要約(オリジナル)

Personalized text-to-image generation methods can generate customized images based on the reference images, which have garnered wide research interest. Recent methods propose a finetuning-free approach with a decoupled cross-attention mechanism to generate personalized images requiring no test-time finetuning. However, when multiple reference images are provided, the current decoupled cross-attention mechanism encounters the object confusion problem and fails to map each reference image to its corresponding object, thereby seriously limiting its scope of application. To address the object confusion problem, in this work we investigate the relevance of different positions of the latent image features to the target object in diffusion model, and accordingly propose a weighted-merge method to merge multiple reference image features into the corresponding objects. Next, we integrate this weighted-merge method into existing pre-trained models and continue to train the model on a multi-object dataset constructed from the open-sourced SA-1B dataset. To mitigate object confusion and reduce training costs, we propose an object quality score to estimate the image quality for the selection of high-quality training samples. Furthermore, our weighted-merge training framework can be employed on single-object generation when a single object has multiple reference images. The experiments verify that our method achieves superior performance to the state-of-the-arts on the Concept101 dataset and DreamBooth dataset of multi-object personalized image generation, and remarkably improves the performance on single-object personalized image generation. Our code is available at https://github.com/hqhQAQ/MIP-Adapter.

arxiv情報

著者 Qihan Huang,Siming Fu,Jinlong Liu,Hao Jiang,Yipeng Yu,Jie Song
発行日 2024-09-26 15:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク