Directed Diffusion: Direct Control of Object Placement through Attention Guidance

要約

DALLE-2、Imagen、eDiff-I、Stable Diffusion などのテキストガイド付き拡散モデルは、目的の画像コンテンツを説明する短いテキスト プロンプトだけを与えれば、事実上無限の種類の画像を生成できます。
多くの場合、画像は非常に高品質です。
しかし、これらのモデルでは、特定の位置関係にあるキャラクターなどの複数のキーオブジェクトを含むシーンを構成するのに苦労することがよくあります。
映画やアニメーションの理論に関する文献で認められているように、画像内および画像全体にわたるキャラクターやオブジェクトの配置を「指示する」機能が欠けていることは、ストーリーテリングにおいて重要です。
この作業では、必要な方向性を提供するために特に単純なアプローチを採用しています。
プロンプトワードのクロスアテンションマップはそれらのワードによって示されるオブジェクトの空間レイアウトを反映するという観察に基づいて、これらのクロスアテンションマップの望ましい位置に「活性化」を生み出す最適化目標を導入します。
結果として得られたアプローチは、テキストガイドによる拡散モデルの適用可能性を、単一の画像を超えて、物語の本のように関連する画像のコレクションに一般化するための一歩となります。
有向拡散は、既存の事前トレーニング済みモデルを利用し、配置されたオブジェクトと背景の間の一貫したブレンドを維持しながら、複数のオブジェクトに対する簡単な高レベルの位置制御を提供します。
さらに、実装に必要な行数はわずか数行だけです。

要約(オリジナル)

Text-guided diffusion models such as DALLE-2, Imagen, eDiff-I, and Stable Diffusion are able to generate an effectively endless variety of images given only a short text prompt describing the desired image content. In many cases the images are of very high quality. However, these models often struggle to compose scenes containing several key objects such as characters in specified positional relationships. The missing capability to “direct” the placement of characters and objects both within and across images is crucial in storytelling, as recognized in the literature on film and animation theory. In this work, we take a particularly straightforward approach to providing the needed direction. Drawing on the observation that the cross-attention maps for prompt words reflect the spatial layout of objects denoted by those words, we introduce an optimization objective that produces “activation” at desired positions in these cross-attention maps. The resulting approach is a step toward generalizing the applicability of text-guided diffusion models beyond single images to collections of related images, as in storybooks. Directed Diffusion provides easy high-level positional control over multiple objects, while making use of an existing pre-trained model and maintaining a coherent blend between the positioned objects and the background. Moreover, it requires only a few lines to implement.

arxiv情報

著者 Wan-Duo Kurt Ma,J. P. Lewis,Avisek Lahiri,Thomas Leung,W. Bastiaan Kleijn
発行日 2023-09-26 12:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク