要約
我々は、単一の RGB 画像からコヒーレントな 3D シーンを再構築するための新しい拡散ベースのアプローチを提案します。
私たちの方法では、画像調整された 3D シーン拡散モデルを利用して、シーン内のすべてのオブジェクトの 3D ポーズとジオメトリのノイズを同時に除去します。
タスクの不適切な性質に動機付けられ、一貫したシーン再構築結果を得るために、すべてのシーン オブジェクトを同時に条件付けしてシーン コンテキストをキャプチャし、モデルが拡散全体を通じてオブジェクト間の関係を学習できるようにすることで、生成シーンを事前に学習します。
プロセス。
さらに、公開されているデータセットでは一般的な、完全なグラウンドトゥルース アノテーションがない場合でもトレーニングを容易にする、効率的な表面アライメント損失を提案します。
この損失は表現力豊かな形状表現を活用しており、中間形状予測からの直接ポイント サンプリングが可能になります。
単一 RGB 画像の 3D シーン再構成のタスクを条件付き拡散プロセスとして構成することにより、私たちのアプローチは現在の最先端の方法を超え、SUN RGB-D で AP3D で 12.04% の向上と F-13.43% の増加を達成しました。
Pix3D でスコアを付けます。
要約(オリジナル)
We present a novel diffusion-based approach for coherent 3D scene reconstruction from a single RGB image. Our method utilizes an image-conditioned 3D scene diffusion model to simultaneously denoise the 3D poses and geometries of all objects within the scene. Motivated by the ill-posed nature of the task and to obtain consistent scene reconstruction results, we learn a generative scene prior by conditioning on all scene objects simultaneously to capture the scene context and by allowing the model to learn inter-object relationships throughout the diffusion process. We further propose an efficient surface alignment loss to facilitate training even in the absence of full ground-truth annotation, which is common in publicly available datasets. This loss leverages an expressive shape representation, which enables direct point sampling from intermediate shape predictions. By framing the task of single RGB image 3D scene reconstruction as a conditional diffusion process, our approach surpasses current state-of-the-art methods, achieving a 12.04% improvement in AP3D on SUN RGB-D and a 13.43% increase in F-Score on Pix3D.
arxiv情報
著者 | Manuel Dahnert,Angela Dai,Norman Müller,Matthias Nießner |
発行日 | 2024-12-13 17:26:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google