要約
ターゲット画像のスタイルに合わせながら、物理的に妥当な方法で、ユーザーが提供した画像から別のスタイルのターゲット画像に被写体をドラッグ アンド ドロップする方法である Magic Insert を紹介します。
この研究では、スタイルを意識したドラッグ アンド ドロップの問題を形式化し、スタイルを意識したパーソナライゼーションと様式化された画像へのリアルなオブジェクトの挿入という 2 つのサブ問題に対処することでこの問題に取り組む方法を提示しました。
スタイルを意識したパーソナライゼーションの場合、私たちの手法はまず、LoRA と対象画像の学習済みテキスト トークンを使用して、事前トレーニングされたテキストから画像への拡散モデルを微調整し、次にターゲット スタイルの CLIP 表現をそれに注入します。
オブジェクトの挿入には、ブートストラップ ドメイン アダプションを使用して、ドメイン固有のフォトリアリスティックなオブジェクト挿入モデルをさまざまな芸術スタイルのドメインに適応させます。
全体として、この方法は修復などの従来のアプローチよりも大幅に優れています。
最後に、この分野の評価と将来の進歩を促進するために、データセット SubjectPlop を紹介します。
プロジェクトページ:https://magicinsert.github.io/
要約(オリジナル)
We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
arxiv情報
著者 | Nataniel Ruiz,Yuanzhen Li,Neal Wadhwa,Yael Pritch,Michael Rubinstein,David E. Jacobs,Shlomi Fruchter |
発行日 | 2024-07-02 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google