ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

要約

トレーニング中にペアの合成シーン画像を必要としない、効果的なゼロショット 3D オブジェクト合成アプローチである ZeroComp を紹介します。
私たちの方法では、ControlNet を利用して固有の画像から調整し、それを安定拡散モデルと組み合わせてシーンの事前情報を利用し、効果的なレンダリング エンジンとして動作します。
トレーニング中、ZeroComp はジオメトリ、アルベド、マスクされたシェーディングに基づいた固有のイメージを使用します。これらはすべて、複合オブジェクトのあるシーンとないシーンのペア イメージを必要としません。
トレーニングが完了すると、仮想 3D オブジェクトをシーンにシームレスに統合し、シェーディングを調整してリアルなコンポジットを作成します。
私たちは高品質の評価データセットを開発し、定量的および人間の知覚ベンチマークにおいて、明示的な照明推定と生成技術を使用する方法よりも ZeroComp が優れたパフォーマンスを発揮することを実証しました。
さらに、ZeroComp は、合成屋内データのみでトレーニングされた場合でも、実際の画像合成と屋外画像の合成に拡張され、画像合成におけるその有効性を示しています。

要約(オリジナル)

We present ZeroComp, an effective zero-shot 3D object compositing approach that does not require paired composite-scene images during training. Our method leverages ControlNet to condition from intrinsic images and combines it with a Stable Diffusion model to utilize its scene priors, together operating as an effective rendering engine. During training, ZeroComp uses intrinsic images based on geometry, albedo, and masked shading, all without the need for paired images of scenes with and without composite objects. Once trained, it seamlessly integrates virtual 3D objects into scenes, adjusting shading to create realistic composites. We developed a high-quality evaluation dataset and demonstrate that ZeroComp outperforms methods using explicit lighting estimations and generative techniques in quantitative and human perception benchmarks. Additionally, ZeroComp extends to real and outdoor image compositing, even when trained solely on synthetic indoor data, showcasing its effectiveness in image compositing.

arxiv情報

著者 Zitian Zhang,Frédéric Fortier-Chouinard,Mathieu Garon,Anand Bhattad,Jean-François Lalonde
発行日 2024-10-10 17:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク