要約
この論文では、特定の人間 (具体的には、人物の 1 つの画像) を小説のシーンに挿入することに焦点を当てます。
安定した拡散の上に構築された私たちの方法は、テキストとポーズで高度に制御しながら、自然な外観の画像を生成します。
これを達成するには、画像のペアでトレーニングする必要があります。最初の画像は人物が写った参照画像で、2 番目の画像は同じ人物 (ポーズが異なり、場合によっては背景も異なる) を示す「ターゲット画像」です。
さらに、参照画像内のポーズと相対的な新しいポーズを説明するテキスト キャプションが必要です。
この論文では、この基準に従った新しいデータセットを紹介します。このデータセットは、人間中心のアクション豊富なビデオからフレームのペアを使用して作成し、マルチモーダル LLM を使用して、テキスト キャプションの人間の姿勢の違いを自動的に要約します。
私たちは、「自然の中で」のシーン、特に人と物体との間の相互作用が存在するシーンでは、アイデンティティの保存がより困難なタスクであることを実証します。
ノイズの多いキャプションによる弱い監視と堅牢な 2D ポーズを組み合わせることで、人物とオブジェクトのインタラクションの品質が向上します。
要約(オリジナル)
In this paper we focus on inserting a given human (specifically, a single image of a person) into a novel scene. Our method, which builds on top of Stable Diffusion, yields natural looking images while being highly controllable with text and pose. To accomplish this we need to train on pairs of images, the first a reference image with the person, the second a ‘target image’ showing the same person (with a different pose and possibly in a different background). Additionally we require a text caption describing the new pose relative to that in the reference image. In this paper we present a novel dataset following this criteria, which we create using pairs of frames from human-centric and action-rich videos and employing a multimodal LLM to automatically summarize the difference in human pose for the text captions. We demonstrate that identity preservation is a more challenging task in scenes ‘in-the-wild’, and especially scenes where there is an interaction between persons and objects. Combining the weak supervision from noisy captions, with robust 2D pose improves the quality of person-object interactions.
arxiv情報
著者 | Nikolai Warner,Jack Kolb,Meera Hahn,Vighnesh Birodkar,Jonathan Huang,Irfan Essa |
発行日 | 2024-12-13 15:41:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google