要約
ユーザーが期待するオブジェクトをユーザー指定の領域に追加するトレーニング不要の拡散修正メソッドである ObjectAdd を紹介します。
ObjectAdd の動機は次のとおりです。まず、1 つのプロンプトですべてを説明するのは難しい場合があり、次に、ユーザーは生成されたイメージにオブジェクトを追加する必要があることがよくあります。
現実世界に適応するために、ObjectAdd は次の技術革新によりオブジェクトを追加した後も正確な画像の一貫性を維持します。(1) 正しいテキスト埋め込み結合を保証するための埋め込みレベルの連結。
(2) オブジェクトがユーザー指定の領域にアクセスすることを保証するための、潜在およびアテンション注入によるオブジェクト駆動型のレイアウト制御。
(3) 画像の残りの部分が同じままであることを保証するために、注意を再集中させてオブジェクトを拡張する方法で画像の修復を促します。
テキスト プロンプトの画像を使用して、ObjectAdd を使用すると、ユーザーはボックスとオブジェクトを指定でき、次のことを実現できます。(1) ボックス領域内にオブジェクトを追加します。
(2) ボックス領域外の正確なコンテンツ。
(3) 二つの領域の完璧な融合
要約(オリジナル)
We introduce ObjectAdd, a training-free diffusion modification method to add user-expected objects into user-specified area. The motive of ObjectAdd stems from: first, describing everything in one prompt can be difficult, and second, users often need to add objects into the generated image. To accommodate with real world, our ObjectAdd maintains accurate image consistency after adding objects with technical innovations in: (1) embedding-level concatenation to ensure correct text embedding coalesce; (2) object-driven layout control with latent and attention injection to ensure objects accessing user-specified area; (3) prompted image inpainting in an attention refocusing & object expansion fashion to ensure rest of the image stays the same. With a text-prompted image, our ObjectAdd allows users to specify a box and an object, and achieves: (1) adding object inside the box area; (2) exact content outside the box area; (3) flawless fusion between the two areas
arxiv情報
著者 | Ziyue Zhang,Mingbao Lin,Rongrong Ji |
発行日 | 2024-05-02 14:57:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google