要約
テキストとレイアウトの両方に導かれた、同時にマルチオブジェクトコンポジットが可能な最初の生成モデルを紹介します。
私たちのモデルでは、シーン内に複数のオブジェクトを追加することができ、単純な位置関係(例えば、前の、前の、隣の)から、後退(例えば、ハグ、ギターの演奏)を必要とする複雑なアクションまでの幅広い相互作用をキャプチャできます。
相互作用が「自撮りをする」などの追加の小道具を暗示する場合、モデルはこれらのサポートオブジェクトを自律的に生成します。
カスタマイズとも呼ばれる合成およびサブジェクト駆動型の生成のための共同トレーニングにより、テキスト駆動型オブジェクトの合成のテキストと視覚入力のよりバランスの取れた統合を実現します。
その結果、両方のタスクで最先端のパフォーマンスを備えた多用途のモデルを取得します。
さらに、視覚モデルと言語モデルを活用するデータ生成パイプラインを提示して、マルチモーダルの整列したトレーニングデータを簡単に合成します。
要約(オリジナル)
We introduce the first generative model capable of simultaneous multi-object compositing, guided by both text and layout. Our model allows for the addition of multiple objects within a scene, capturing a range of interactions from simple positional relations (e.g., next to, in front of) to complex actions requiring reposing (e.g., hugging, playing guitar). When an interaction implies additional props, like `taking a selfie’, our model autonomously generates these supporting objects. By jointly training for compositing and subject-driven generation, also known as customization, we achieve a more balanced integration of textual and visual inputs for text-driven object compositing. As a result, we obtain a versatile model with state-of-the-art performance in both tasks. We further present a data generation pipeline leveraging visual and language models to effortlessly synthesize multimodal, aligned training data.
arxiv情報
著者 | Gemma Canet Tarrés,Zhe Lin,Zhifei Zhang,He Zhang,Andrew Gilbert,John Collomosse,Soo Ye Kim |
発行日 | 2025-02-07 18:48:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google