JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

要約

パーソナライズされたテキストから画像への生成モデルにより、ユーザーはさまざまなシーンで個人の所有物を描写する画像を作成でき、さまざまな分野での用途が見つかります。
パーソナライゼーション機能を実現するために、既存の方法はユーザーのカスタム データセットに基づいてテキストから画像への基礎モデルを微調整することに依存していますが、これは一般ユーザーにとっては簡単ではなく、リソースを大量に消費し、時間がかかる可能性があります。
微調整を必要としない手法の開発が試みられていますが、その生成品質は微調整を行う手法に比べてはるかに低くなります。
この論文では、微調整不要のパーソナライゼーション モデルを学習するための効果的な手法である Joint-Image Diffusion (\jedi) を提案します。
私たちの重要なアイデアは、共通の主題を共有する複数の関連するテキストと画像のペアの同時分布を学習することです。
学習を促進するために、スケーラブルな合成データセット生成手法を提案します。
モデルをトレーニングすると、サンプリング プロセス中に参照画像を入力として使用するだけで、テスト時に迅速かつ簡単にパーソナライゼーションが可能になります。
私たちのアプローチは、高価な最適化プロセスや追加モジュールを必要とせず、任意の数の参照画像によって表されるアイデンティティを忠実に保存できます。
実験結果は、私たちのモデルが定量的および定性的の両方で最先端の生成品質を達成し、以前の微調整ベースおよび微調整なしのパーソナライゼーション ベースラインの両方を大幅に上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Personalized text-to-image generation models enable users to create images that depict their individual possessions in diverse scenes, finding applications in various domains. To achieve the personalization capability, existing methods rely on finetuning a text-to-image foundation model on a user’s custom dataset, which can be non-trivial for general users, resource-intensive, and time-consuming. Despite attempts to develop finetuning-free methods, their generation quality is much lower compared to their finetuning counterparts. In this paper, we propose Joint-Image Diffusion (\jedi), an effective technique for learning a finetuning-free personalization model. Our key idea is to learn the joint distribution of multiple related text-image pairs that share a common subject. To facilitate learning, we propose a scalable synthetic dataset generation technique. Once trained, our model enables fast and easy personalization at test time by simply using reference images as input during the sampling process. Our approach does not require any expensive optimization process or additional modules and can faithfully preserve the identity represented by any number of reference images. Experimental results show that our model achieves state-of-the-art generation quality, both quantitatively and qualitatively, significantly outperforming both the prior finetuning-based and finetuning-free personalization baselines.

arxiv情報

著者 Yu Zeng,Vishal M. Patel,Haochen Wang,Xun Huang,Ting-Chun Wang,Ming-Yu Liu,Yogesh Balaji
発行日 2024-07-08 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク