Crafting Parts for Expressive Object Composition

要約

Stable Diffusion、DALLE-2 などの大規模な生成モデルからのテキストから画像への生成は、その優れた品質と広範な知識ベースにより、さまざまなタスクの共通基盤となっています。
画像の構成と生成は創造的なプロセスであるため、アーティストは生成される画像のさまざまな部分を制御する必要があります。
ベーステキストプロンプトにパーツに関する詳細を追加するだけでは、まったく異なるイメージ (例: ID が欠落している/正しくない) になるか、余分なパーツの詳細が単に無視されるかのどちらかであることがわかりました。
これらの問題を軽減するために、ベース テキスト プロンプト内のオブジェクトに対して指定されたきめ細かい部品レベルの詳細に基づいてイメージを生成できる PartCraft を導入します。
これにより、アーティストはより詳細に制御できるようになり、特徴的なオブジェクトのパーツを組み合わせて新しいオブジェクトを構成することが可能になります。
PartCraft は、まず、特定の拡散プロセスからオブジェクト領域のノイズを除去することで、オブジェクト パーツの位置を特定します。
これにより、各パーツ トークンを適切なオブジェクト領域にローカライズできるようになります。
パーツマスクを取得した後、詳細なパーツ記述に基づいて各パーツ領域で局所拡散プロセスを実行し、それらを組み合わせて最終画像を生成します。
PartCraft のすべての段階は、事前トレーニングされた拡散モデルの再利用に基づいており、これにより、トレーニングなしでさまざまなドメインにわたって一般化することができます。
PartCraft によって提供される部品レベルの制御の有効性を、視覚的な例を通じて定性的に、また現代のベースラインと比較して定量的に実証します。

要約(オリジナル)

Text-to-image generation from large generative models like Stable Diffusion, DALLE-2, etc., have become a common base for various tasks due to their superior quality and extensive knowledge bases. As image composition and generation are creative processes the artists need control over various parts of the images being generated. We find that just adding details about parts in the base text prompt either leads to an entirely different image (e.g., missing/incorrect identity) or the extra part details simply being ignored. To mitigate these issues, we introduce PartCraft, which enables image generation based on fine-grained part-level details specified for objects in the base text prompt. This allows more control for artists and enables novel object compositions by combining distinctive object parts. PartCraft first localizes object parts by denoising the object region from a specific diffusion process. This enables each part token to be localized to the right object region. After obtaining part masks, we run a localized diffusion process in each of the part regions based on fine-grained part descriptions and combine them to produce the final image. All the stages of PartCraft are based on repurposing a pre-trained diffusion model, which enables it to generalize across various domains without training. We demonstrate the effectiveness of part-level control provided by PartCraft qualitatively through visual examples and quantitatively in comparison to the contemporary baselines.

arxiv情報

著者 Harsh Rangwani,Aishwarya Agarwal,Kuldeep Kulkarni,R. Venkatesh Babu,Srikrishna Karanam
発行日 2024-06-14 17:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク