Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

要約

事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用することにより、オブジェクトとオブジェクトの空間関係(OOR)と呼ばれるオブジェクトペア間の3D空間関係を学習する方法を提示します。
2D拡散モデルによって合成された画像は、本質的にもっともらしく現実的なOORキューをキャプチャし、3Dデータセットを収集して、さまざまな無制限のオブジェクトカテゴリのOORを学習するための効率的な方法を可能にすると仮定します。
私たちのアプローチは、もっともらしいOORキューをキャプチャする多様な画像を合成することから始まります。これを3Dサンプルに向上させます。
オブジェクトペアのもっともらしい3Dサンプルの多様なコレクションを活用して、スコアベースのOOR拡散モデルをトレーニングして、相対的な空間的関係の分布を学習します。
さらに、ペアワイズ関係全体で一貫性を強制し、オブジェクトの衝突を防止することにより、ペアワイズOORをマルチオブジェクトOORに拡張します。
広範な実験は、OOR拡散モデルを使用した実際の3Dシーンアレンジメントタスクへの適用性とともに、さまざまなオブジェクトとオブジェクトの空間的関係にわたる方法の堅牢性を示しています。

要約(オリジナル)

We present a method for learning 3D spatial relationships between object pairs, referred to as object-object spatial relationships (OOR), by leveraging synthetically generated 3D samples from pre-trained 2D diffusion models. We hypothesize that images synthesized by 2D diffusion models inherently capture plausible and realistic OOR cues, enabling efficient ways to collect a 3D dataset to learn OOR for various unbounded object categories. Our approach begins by synthesizing diverse images that capture plausible OOR cues, which we then uplift into 3D samples. Leveraging our diverse collection of plausible 3D samples for the object pairs, we train a score-based OOR diffusion model to learn the distribution of their relative spatial relationships. Additionally, we extend our pairwise OOR to multi-object OOR by enforcing consistency across pairwise relations and preventing object collisions. Extensive experiments demonstrate the robustness of our method across various object-object spatial relationships, along with its applicability to real-world 3D scene arrangement tasks using the OOR diffusion model.

arxiv情報

著者 Sangwon Beak,Hyeonwoo Kim,Hanbyul Joo
発行日 2025-03-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク