RelationBooth: Towards Relation-Aware Customized Object Generation

要約

カスタマイズされた画像の生成は、ユーザーが提供する画像プロンプトに基づいてパーソナライズされたコンテンツを配信し、大規模なテキストから画像への拡散モデルを個々のニーズに合わせて調整するために重要です。
ただし、既存のモデルでは、生成されたイメージ内のカスタマイズされたオブジェクト間の関係が見落とされることがよくあります。
代わりに、この研究では、テキスト プロンプトに記述されている述語関係を維持しながら、画像プロンプトからのアイデンティティを維持することを目的とした、関係を意識したカスタマイズされた画像生成に焦点を当てることで、そのギャップに対処しています。
具体的には、よく厳選されたデータセットを通じてアイデンティティと関係の学習を解きほぐすフレームワークである RelationBooth を紹介します。
私たちのトレーニング データは、関係固有の画像、アイデンティティ情報を含む独立したオブジェクトの画像、および関係の生成をガイドするテキスト プロンプトで構成されます。
次に、特にポーズの大幅な調整が必要な場合に正確で自然な関係を生成すること、およびオーバーラップの場合のオブジェクトの混乱を回避することという 2 つの主要な課題に取り組むための 2 つの主要なモジュールを提案します。
まず、オブジェクトの関係に密接に関係したオブジェクトのポーズを調整する際にモデルを効果的に導くキーポイント マッチング損失を導入します。
次に、画像プロンプトから局所的な特徴を組み込んでオブジェクトをより適切に区別し、重複する場合の混乱を防ぎます。
3 つのベンチマークに関する広範な結果は、オブジェクトとリレーションの多様なセットにわたってオブジェクトのアイデンティティを維持しながら、正確なリレーションを生成する点で RelationBooth の優位性を示しています。
ソースコードとトレーニング済みモデルは一般に公開されます。

要約(オリジナル)

Customized image generation is crucial for delivering personalized content based on user-provided image prompts, aligning large-scale text-to-image diffusion models with individual needs. However, existing models often overlook the relationships between customized objects in generated images. Instead, this work addresses that gap by focusing on relation-aware customized image generation, which aims to preserve the identities from image prompts while maintaining the predicate relations described in text prompts. Specifically, we introduce RelationBooth, a framework that disentangles identity and relation learning through a well-curated dataset. Our training data consists of relation-specific images, independent object images containing identity information, and text prompts to guide relation generation. Then, we propose two key modules to tackle the two main challenges: generating accurate and natural relations, especially when significant pose adjustments are required, and avoiding object confusion in cases of overlap. First, we introduce a keypoint matching loss that effectively guides the model in adjusting object poses closely tied to their relationships. Second, we incorporate local features from the image prompts to better distinguish between objects, preventing confusion in overlapping cases. Extensive results on three benchmarks demonstrate the superiority of RelationBooth in generating precise relations while preserving object identities across a diverse set of objects and relations. The source code and trained models will be made available to the public.

arxiv情報

著者 Qingyu Shi,Lu Qi,Jianzong Wu,Jinbin Bai,Jingbo Wang,Yunhai Tong,Xiangtai Li,Ming-Husang Yang
発行日 2024-10-30 17:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク