Thinking Outside the BBox: Unconstrained Generative Object Compositing

要約

オブジェクトを画像に合成するには、オブジェクトの配置とスケーリング、色/照明の調和、視点/ジオメトリの調整、影/反射の生成など、複数の重要なサブタスクが含まれます。
最近の生成画像合成方法では、拡散モデルを活用して複数のサブタスクを一度に処理します。
ただし、既存のモデルは、トレーニング中に元のオブジェクトのマスクに依存するため、生成が入力マスクに制限されるため、制限に直面しています。
さらに、新しい画像内のオブジェクトの位置とスケールを指定する正確な入力マスクを取得することは、非常に困難な場合があります。
このような制限を克服するために、制約のない生成オブジェクト合成の新しい問題、つまり生成がマスクによって制限されない問題を定義し、合成されたペアのデータセットで拡散ベースのモデルをトレーニングします。
当社初のモデルは、マスクを超えた影や反射などのオブジェクト効果を生成し、画像のリアリズムを向上させることができます。
さらに、空のマスクが提供された場合、モデルはオブジェクトをさまざまな自然な場所とスケールに自動的に配置し、合成ワークフローを加速します。
私たちのモデルは、さまざまな品質指標やユーザー調査において、既存のオブジェクト配置モデルや合成モデルよりも優れています。

要約(オリジナル)

Compositing an object into an image involves multiple non-trivial sub-tasks such as object placement and scaling, color/lighting harmonization, viewpoint/geometry adjustment, and shadow/reflection generation. Recent generative image compositing methods leverage diffusion models to handle multiple sub-tasks at once. However, existing models face limitations due to their reliance on masking the original object during training, which constrains their generation to the input mask. Furthermore, obtaining an accurate input mask specifying the location and scale of the object in a new image can be highly challenging. To overcome such limitations, we define a novel problem of unconstrained generative object compositing, i.e., the generation is not bounded by the mask, and train a diffusion-based model on a synthesized paired dataset. Our first-of-its-kind model is able to generate object effects such as shadows and reflections that go beyond the mask, enhancing image realism. Additionally, if an empty mask is provided, our model automatically places the object in diverse natural locations and scales, accelerating the compositing workflow. Our model outperforms existing object placement and compositing models in various quality metrics and user studies.

arxiv情報

著者 Gemma Canet Tarrés,Zhe Lin,Zhifei Zhang,Jianming Zhang,Yizhi Song,Dan Ruta,Andrew Gilbert,John Collomosse,Soo Ye Kim
発行日 2024-09-11 11:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク